Agent-first Engineering OS

Yousa Driven Development (YDD)

面向 AI 协作编程的实践手记

把自己在腾讯的一线工程经验 + AI 协作实验都放进一册「YDD」。不卖课，只是把真实的工程笔记、踩坑、工具链迭代写清楚。

Infra Notes
Golang、K8S、OpenResty、APISIX、Istio、Envoy 的落地记录
AI Pairing
让模型当队友的 Prompt/Agent/工具链实验手记
Personal Stack
写作、知识管理、Dev Workflow 的自定义脚本与仪式感

YDD Sprint

为什么你读了100本书，生活却没什么变化？

去年我花三个月做了一个 side project，一个小型信息聚合工具。每天下班写代码，周末调 UI，上线那天挺有成就感。然后呢？没人用，日活为零。我觉得「代码写完、部署上线就算闭环了」，心安理得丢在那里。半年后回头看，问题不是代码质量，是我从头到尾没问过一个问题，有人需要这东西吗？我跑完了开发流程，但从没跑完一次真正的闭环。后来发现这不只是我的问题。读了100本书，收藏了200篇文章，买了5门课，觉得自己一直在学。办了健身房年卡，每周去三次，半年不记体重、不调计划。一年后生活几乎没变。说不清哪里不对，因为确实在努力。我现在的理解是，闭环不是把事做完，是用结果修正判断。大多数人的「闭环」只是任务完成，不是认知校准。只有输入，没有让现实给反馈。这有点像飞行员不看仪表盘凭感觉飞，短期可能没事，时间一长方向一定飘。闭环长什么样？拿 AI 辅助编程举例。向 AI 描述需求，AI 生成代码，这是「生成」。跑测试查逻辑，这是「观测」。发现问题告诉 AI，AI 改，这是「矫正」。开环是生成代码直接复制粘贴，不验证，bug 悄悄堆起来。闭环是每轮生成后立刻验证，看起来慢，但每轮都在收敛。这里有个容易混淆的点。输出不等于反馈。代码 push 到仓库是输出。跑了测试、发现 case 挂了、根据报错改 prompt，这才是闭环。输出是动作，反馈是信息，中间隔着「观测」。 AI Coding 的反馈干净，测试要么过要么不过。现实信号模糊得多。文章阅读量低，到底是内容不行还是标题没起好？产品没人注册，是需求不存在还是落地页没写好？模糊不等于没用，但得做对照。办法是一次只改一个变量。连续三篇文章只改标题、内容不变，就能分离出标题的影响。每次什么都改，等于什么都没验证。后来我慢慢意识到，闭环至少分三层。任务闭环，事情交给我，一定做完。解决的是「做没做完」。让你可靠。认知闭环，做了判断，观测结果，矫正下一次判断。程序员回头看上线后有没有 bug、用户用着顺不顺，然后调整技术选型。解决的是「做得对不对」。让你变准。目标闭环，定期回头问「这个方向本身值不值得做」。以终为始解决终点，闭环解决偏航。你在飞行途中不断校准航线，但也得定期确认目的地没选错。让你不在错误的山头登顶。回想我那个 side project，犯的错不只是没做认知闭环，连目标闭环都没有。很多人很可靠，方向却一直飘，因为只闭合任务，不校准认知，更不校准目标。不是所有事都需要闭环。熟练的外科医生做标准手术不需要「快速试错」。但他能一次做对，是训练阶段已经跑了几千次闭环的结果。闭环真正管用的场景是你面对不确定性，不知道判断对不对。创业、学习新领域、写作、职业转型，这些都没有标准答案。能一次做对，说明闭环已经内化。还在摸索，就需要闭环帮你校准。这个结构在不同领域反复出现。Dropbox 创始人 Drew Houston 没先写代码，而是拍了个3分钟演示视频放到 Hacker News 上，等待名单一夜从5000涨到75000。不过视频验证的不是「需求一定存在」，而是「有强兴趣信号」。愿意注册等待，不等于愿意付费。丰田把 PDCA 嵌进每个工位，一年收到改善提案约70万条，数万个微闭环汇成系统级优势。Barry Marshall 提出「胃溃疡由细菌引起」后说服不了同行，直接喝下幽门螺杆菌培养液，用自己身体跑完验证。光「想对了」不够，得跑完验证。不过闭环不保证成功。大量创业团队严格跑 Build-Measure-Learn 还是死了。闭环保证的不是结果，是校准速度。方向错了，你比不闭环的人更快发现。为什么开环这么普遍？人的认知天然有偏差。确认偏误、过度自信、后见之明，大脑不是为了「判断准」设计的，是为了「快速做出还过得去的判断」设计的。一个有偏的系统没法检测自己偏了多少，就像你不能用一把弯的尺子量自己弯了多少。得靠外部信号。现实本身也复杂，正确的方向、方法、时机没法一次想出来，所以得迭代。导师的判断力从哪来？也是从他自己多年的闭环迭代。Checklist、peer review、最佳实践，拆开看都是前人闭环经验固化成的制度。闭环前期往往看不到回报。播客行业，44%的播客只发了不超过3集，90%没超过20集。坚持过20集的往往开始稳定增长。但「坚持」不等于「闭环迭代」。有些播客坚持了50集从不看数据，一样会死。能增长的不只是没放弃，是一直在根据反馈调内容。每一集都是一次闭环。我写博客也是这样。一开始写完就发，不看数据，也不想看。后来开始看后台，发现有些选题阅读量是其他的三四倍，会有一瞬间想「是不是该多写这类」。但想了想，写博客对我来说首先是思考复盘的工具，我更在意的是每篇自己写完觉得值，能辅助我在 AI Coding 领域想清楚问题。先把质量做好，先做不 scalable 的事情，其他的以后再说。这其实也是一种目标闭环，确认自己校准的方向是对的，不被流量噪音拽着走。回到标题的问题。读了100本书没变化，怎么闭环？我摸索出一个最小做法。读完一个核心观点后，用自己的话写几行，写的过程会逼你发现自己没真正理解。然后把观点用到一个具体场景。比如读了「沉没成本」，下次做决定时问自己，我是不是在被沉没成本绑架？一周后回来看，理解变了吗？用起来有效吗？三步就是一次「执行-观测-校准」。闭环的最小单元可以很小。把学到的观点讲给同事听，看他什么反应。把对某个问题的判断写下来，三个月后回来看对不对。难的不是输出，是愿意把判断摊在现实面前。很多人不是做不到闭环，是不愿承受「发现自己错了」的不适感。真正能持续进步的人，不是判断更准的人，是校准更快的人。判断准是结果，校准快才是原因。校准的前提是承认自己可能错了。承认会错，才会去验证。验证了，才有反馈。有反馈，才能矫正。所以回到最初的问题。你读了100本书，生活没什么变化，不是因为读得不够多，是因为从来没让现实告诉你，读到的东西到底对不对。我现在读书、做项目、写文章，都会问自己，这次闭环了吗？附录：闭环思维的适用边界管用的场景反馈信号可测量的探索性活动。A/B 测试、内容运营、增长实验，「执行-观测-校准」转得起来。容易「假努力」的长期积累领域。读书、写作、健身，人很容易陷入输入幻觉，闭环逼你用现实验证。多人协作需要对齐预期的场景。项目管理、产品迭代，闭环本质是不断用结果校准所有人的认知。 ...

为什么 AI 写代码更快但交付没变，以及我怎么把它扳回来的

为什么 AI 写代码更快但交付没变，以及我怎么把它扳回来的一、你以为快了 20%，实验说你慢了 19% 16 个资深开源开发者，预注册随机对照实验，使用 AI 辅助编码后客观测量完成时间慢了 19%。但这些开发者自己觉得快了 20%。主客观偏差达 39 个百分点。这不是某个科技博主的体感分享，而是 METR（一家专注于 AI 模型能力评估的研究机构）做的目前唯一一项预注册 RCT（随机对照实验）。预注册意味着实验设计提前锁定、不能事后改假设。随机对照意味着有控制组和实验组、不是自选分组。 16 个人确实不多。但这些都是在自己长期维护的开源项目上工作的资深开发者，不是实习生在做玩具项目。一个人在自己最熟悉的代码库上，用 AI 写代码，客观上变慢了，主观上还觉得快了。这个认知偏差比「慢了 19%」本身更值得警惕。如果只有 METR 一份数据，完全可以归为噪声。但 Faros AI 用 10,000 多名开发者的遥测数据讲了同一个故事。 Faros 按 AI 采纳程度分组，高采纳团队的个体指标全面飘红：任务完成数 +21%，PR 合并数 +98%。但组织级的 DORA（Google Cloud 旗下的 DevOps 效能研究团队）四大交付指标（部署频率、前置时间、MTTR（平均恢复时间）、变更失败率）无一改善。个体全面提升，组织纹丝不动。这个悖论怎么解释？答案藏在另外两个数字里：PR 体积 +154%，评审时间 +91%。 AI 帮你写了两倍的代码，打包成两倍大的 PR，然后扔给了同一个 reviewer。reviewer 的带宽没有翻倍，评审时间自然翻倍。上游加速产生的所有增量，被下游瓶颈原封不动地吃掉了。再看信任层。三份大规模调查（DORA、Stack Overflow、JetBrains）交叉验证：90% 的开发者在用 AI，但只有 7% 总是使用，只有 3.1% 高度信任。不信任率 46%，首次超过了信任率 33%。 ...

AI Coding 融入后台研发全链路：现状、边界与讨论框架

AI Coding 融入后台研发全链路：现状、边界与讨论框架定位：团队脑暴讨论材料，非结论性文档。核心目的是用行业数据拉齐认知、建立现状共识，为下一步行动提供讨论基础。分析方法说明本文的产出过程遵循多源报告结构化分析 SOP，分为两个阶段： Phase 1 — 并行拆解：对 10 份行业报告各自独立分析，使用统一的 8 章模板（研究设计、数据采集、测量定义、统计方法、效度评估、局限性、可操作性、一句话总结），外加每份报告 3-5 个定制追问。10 份分析并行完成，互不参照。 Phase 2 — 串行聚合：单一 Agent 读取全部 Phase 1 产出，识别交叉模式、解决结论冲突、提取可迁移洞察，产出结构化数据矩阵和本文。这套流程的核心价值：不是「读完报告写总结」，而是「先用统一框架拆解每份报告的方法论和证据基础，再系统性聚合」。方法论聚焦确保了我们不只看「报告说了什么」，更看「报告是怎么得出这个结论的」——后者才是判断数据可信度、解释结论冲突的关键。详细的 SOP 流程和模板设计见：多源报告结构化分析 SOP。第一章：背景与讨论框架 1.1 背景与目标 2025 年至今，AI 编码工具经历了从"Copilot 补全"到"Agentic 自主执行"的代际跃迁。行业采用率已达 84-90%（DORA/Stack Overflow/JetBrains 三方交叉验证），但围绕真实效率、代码质量、技术债的争议同样在加剧。我们团队已在多个环节使用 AI 工具，并有两块方向在推进（AI CR 工具、需求→结构化 spec 工程）。这次讨论的核心目标：用行业数据建立共识，识别团队最值得投入的环节与最需要防范的风险，推动 2-3 个可落地的试点动作。一个关键前提：AI 的输出质量取决于我们提供的上下文是否结构化、约束是否明确、验证是否自动化。提效的重点不只是"换更强的模型"，而是把 AI 接入工程流程并配套质量闸门。 1.2 数据来源与阅读指引本文基于 10 份行业报告的数据矩阵整理，覆盖 2024-2026 年。 # 报告发布方时间可信度偏见方向 1 Anthropic Agentic Coding Trends AI 模型厂商 26年1月 🟡 倾向展示 AI 变革性价值 2 Faros AI — The AI Productivity Paradox 工程效能平台 25年7月 🟢 倾向强调可观测性需求 3 GitClear — AI Copilot Code Quality 代码质量工具 25年2月 🟡 倾向放大质量下降信号 4 GitHub Octoverse 2025 Copilot 提供商 25年10月 🟢 倾向正面呈现 AI 影响 5 Google DORA 2025 Google Cloud 学术项目 25年9月 🟢 相对中立 6 JetBrains State of Developer Ecosystem IDE/AI 工具厂商 25年10月 🟢 AI 叙事有利益关联 7 METR — AI on OSS Developer Productivity 独立 AI 安全评估 25年7月 🟢 偏向 AI 风险/局限评估 8 MIT Technology Review 独立科技媒体 25年12月 🟡 倾向有张力的叙事 9 SonarSource State of Code 2026 静态分析工具 26年 🟡 倾向强调代码验证需求 10 Stack Overflow 2025 Developer Survey 社区平台 25年7月 🟢 相对中立，样本偏 SO 用户阅读图例： ...

多源报告结构化分析 SOP

多源报告结构化分析 SOP 定位: 一套可复用的方法论，用于从 N 份异质来源报告中，系统性地提取、分析、对比某一维度的信息，并产出结构化的交叉分析文档。抽象自: 2026-02-27「AI Coding 报告测量方法论分析」项目实践。该项目从 10 份 AI Coding 研效报告中分析了测量方法论，产出了 10 份 per-report 分析 + 1 份聚合对比分析。适用工具: Claude Code + Agent Team（并行调度）一、这套 SOP 解决什么问题 1.1 核心问题当你面对 N 份关于同一主题的报告/论文/调研时，常见痛点：痛点表现信息过载每份报告几十页，10 份就是几百页，人工逐一精读不现实结论冲突不同报告对同一问题给出相反结论，不知道该信谁比较困难各报告结构不同、术语不同、测量口径不同，无法直接对比深层原因不可见表面结论容易获取，但「为什么得出这个结论」（方法论、样本、统计方法）藏在细节中提炼效率低手动整理笔记 → 对比 → 写报告，链路长、易遗漏 1.2 核心思路不是「读 N 份报告然后写总结」，而是「用统一的分析框架逐一拆解，再系统性聚合」。关键设计：统一模板：所有报告用相同的 8 章结构分析，确保可比性先拆后合：Phase 1 独立分析每份报告（并行），Phase 2 聚合交叉对比（串行）报告特定问题：在统一模板之上，每份报告有定制的「重点追问」，抓住该报告独特的方法论特征方法论聚焦：不只看「说了什么」，更看「怎么得出这个结论的」——后者才是判断可信度和可复用性的基础 1.3 产出价值产出物价值 N 份 per-report 结构化分析每份报告的「方法论透视」，快速理解其证据基础和局限 1 份交叉对比分析解释冲突结论的方法论根源，提取可复用的最佳实践分析框架本身团队建立自己的度量/评估体系的参考模板二、适用场景 2.1 直接适用场景示例行业报告对标收集 N 份同主题行业报告，系统性提取和对比技术选型调研 N 份技术方案/框架的评测报告，对比其评测方法论竞品分析 N 份关于竞品的分析/报告，统一维度对比学术文献综述 N 篇论文的研究方法和发现的系统性比较度量体系设计分析「别人怎么测量的」，为团队设计自己的度量方案 2.2 核心适用条件 N ≥ 3：少于 3 份来源时交叉对比价值有限，手动处理即可异质来源：来源越多样（不同机构、不同方法），交叉分析越有价值有对比需求：不只是「分别了解每份报告」，而是需要「跨报告比较」有某个分析维度：需要一个明确的分析视角（如「测量方法论」「数据质量」「适用条件」） 2.3 不适用仅 1-2 份报告：直接精读即可，不需要这套流程来源高度同质（如同一机构的系列报告）：交叉对比价值低无明确分析维度：如果只是「帮我看看这几份报告」，先明确你想分析什么三、前置准备 3.1 输入物清单输入物必需? 说明 N 份原始报告（或结构化摘要）必需可以是 PDF、网页、或已有的结构化分析文档（ver1/ver2）分析维度定义必需明确「你想从什么角度分析这些报告」——如方法论、数据质量、适用场景等来源索引推荐每份报告的元信息（发布机构、时间、可信度、偏见方向）。如果已有就复用，没有就在 Phase 1 中顺便产出已有交叉分析（如有）可选如果之前已做过内容层面的分析，方法论分析可以解释其中的冲突 3.2 分析框架设计这是整个 SOP 中最需要人工判断的环节。在执行前，你需要定义： ...

省10秒，赔一个早上

省10秒，赔一个早上春节那天晚上吃火锅，吃到最后桌上一片狼藉。我端起锅，把剩下的汤底倒进了厨房水槽。这个动作顺手得不能再顺手，就像吃完泡面把汤倒掉一样。我还开了水龙头冲了一会儿，心想「冲一冲就好了」。然后关灯，睡觉。第二天早上，水槽里的水一动不动。我拿筷子戳了一下下水口，很浅的位置就碰到一层硬邦邦的东西。火锅汤里的油脂在管道里凝固了，堵得死死的。加水没用，开水也没用，水槽里积着水，开水倒下去还没到油脂层就凉了。最后我拆了下水管，戴着手套把凝固的油脂一块一块抠出来。一整个早上，就交代在这件事上了。起因是我昨晚省了大概10秒钟。读到这里你大概会想：粗心了呗。我一开始也这样给自己定性。粗心，下次注意。但越想越不对。我不是粗心。犯错有两种。一种是你明明知道正确答案，手一滑做错了，比如考试时把6写成9，或者回微信点错了对话框。脑子知道该怎么做，手没跟上。另一种更麻烦：你的判断本身就是错的，但你完全不觉得自己在犯错。那天晚上我不是手滑，我是真心觉得「冲一冲就能走」。大脑给了一个非常确定的判断，我完全没有怀疑。问题不是我「没注意」，是我压根不觉得这里有什么要注意的。这两种错误需要完全不同的应对。手滑的话，「下次注意」有时候确实管用，绷一下就行。但如果判断本身就是错的呢？你怎么「注意」一件你认为完全没问题的事？就像让一个以为自己走对路的人「注意别走错」，他会很困惑，因为在他看来自己没走错。你回微信消息的时候，检查过对话框是不是对的人吗？大多时候没有。因为你「觉得」自己在对的地方。直到有一天，吐槽老板的话发到了工作群里。你提交代码的时候，每次都跑测试了吗？大多时候没有。因为你「觉得」改的这一行不影响别的。直到线上报错，一整个下午在回滚和修复。你跟朋友约「周末见」，确认过是周六还是周日吗？大多时候没有。因为你「觉得」对方肯定知道你说的是哪天。直到那天你在咖啡馆等了一个小时，对方在家里等了一个小时。这些我们都叫「粗心」，然后说「下次注意」。但你回想一下，同类错误是不是一直在发生，只是换了个场景？对手滑和走神，「绷一下」偶尔有效。但对那些你压根不觉得自己在犯错的时刻，光靠「注意」几乎没用。后来我花了一些时间琢磨这件事，发现有个区分特别有用。生活里有两种「知道」。一种是真的知道：你说得出依据，经得起追问。比如开水能泡茶，你亲手泡过无数次，没什么好怀疑的。另一种是「以为自己知道」：你有一个模糊的感觉，但要是有人追问「你怎么确定的？」，你只能说「应该是这样吧」「感觉没问题」。火锅油那件事，我「知道」油脂低温下会凝固，初中化学讲过。但我「以为我知道」火锅油冲一冲就能走，这个判断我从来没验证过。大脑做了一件很巧妙的事：它把「没有反对的证据」当成了「有支持的证据」。因为之前往水槽倒东西没出过事，它就自动把「倒油」归进了「安全操作」。手机要换新的时候也一样。你觉得重要照片「应该都同步到云端了吧」，直接把旧手机重置了。然后发现三年前的旅行照片全没了。你不是忘了备份，是「以为」自己备份了。「以为备份了」和「确认备份了」之间的距离，就是那些照片的命。我后来找到一个判断方法，就一句话：「如果有人问我’你怎么确定的’，我能给出依据吗？」「你怎么确定火锅油冲一冲就能走？」我给不出任何依据。我只是「觉得」。但在端着锅准备倒汤的那个瞬间，大脑不会自动跳出来问这句话。「我觉得没问题」和「我确认没问题」，在你自己的感受里几乎一模一样。大脑把前者伪装成后者的能力，强到你自己都察觉不了。如果「多想一步」就能解决问题，人类早就不犯错了。每一本自助书都在说「三思而后行」，如果这话真管用，就不需要那么多本自助书了。大脑特别会偷懒。大多数时候它靠直觉出答案，几乎不花精力。只有在你主动喊停的时候，它才会切换到认真检查的模式。问题是，只要一件事看起来「没什么风险」，大脑就直接跳过检查，走那条最省力的路。你端着火锅汤站在水槽前，大脑根本不觉得这是一个需要动脑子的场景。你越累、越赶时间，它就越懒得检查。还有一层。当一个有风险的做法以前没出过事，大脑会把它标记为「安全」。你之前可能也往水槽倒过油，没堵过，也许量少，也许天暖油脂没完全凝固。但每一次侥幸都在强化一个错误信念：这样做没问题。这个认知陷阱有多古老？公元79年，庞贝城的居民对维苏威火山爆发前的频繁地震毫不在意。小普林尼记载：「这些地震并不特别令人惊慌，因为在坎帕尼亚很常见。」两千年后，NASA的哥伦比亚号航天飞机栽在了同一个坑里。发射时一块泡沫材料脱落撞了机翼，工程师提出担忧，管理层说「泡沫脱落以前也发生过，没出过事」。事故调查报告记录得很清楚：泡沫脱落被逐步从「安全问题」降级为「维护问题」，最终归类为「可接受风险」[1]。16天后，哥伦比亚号在重返大气层时解体，七名宇航员遇难。倒火锅油和航天事故，后果当然不在一个量级。但触发它们的认知机制是同一个：过去的侥幸不是安全的证据，是风险在悄悄积累。想明白这一层之后，我发现真正的问题不是「我为什么犯了这个错」，而是「为什么我会反复犯同一类错」。这类错误有个共同点：做对了没有奖励，做错了代价巨大。你不会因为「今天没把油倒进水槽」而觉得自己做了一件了不起的事。但你倒了就要花一整个早上修。「正确行为」在大脑里没有被标记为「值得重复」，因为没有正反馈。下次遇到类似场景，大脑还是走那条阻力最小的老路。这也是「下次注意」总不管用的原因。「注意」靠意志力撑着，意志力是有限的。你累了，赶时间了，心情不好了，意志力就掉线了。但大脑的省力捷径永远在线。想了很久，我觉得有两个方向可能真的有用。第一个，不是事事谨慎，而是学会一个很快的判断：「做错了，能在5分钟内恢复原状吗？」 5分钟只是个粗略的门槛，不用较真。关键是眼前这件事能不能低成本地撤回。能撤回，放心做，错了也不怕。不能撤回，就值得多想一下。这个判断花不了3秒。发一条朋友圈，发错了可以秒删，不用纠结。把火锅油倒进下水道，倒了就收不回来，值得停一下。提交代码，如果部署了很难回滚，提交前跑一下测试。不是要变成一个对什么事都小心翼翼的人，那会什么都做不了。只是在那些没法撤回的操作前，让脑子里快速闪过几个念头：对象对吗？做错了能撤回吗？最坏情况影响谁？不需要每个问题都正式回答一遍，让它们在脑子里晃一下就够了。说实话，我自己也不确定这个方法每次都管用。你很累的时候，赶时间的时候，大脑已经把这个操作归类为「安全」的时候，这个念头可能根本闪不过来。所以第二个方向更重要。与其改自己，不如改环境。让正确的做法变成阻力最小的路，让犯错变得更难。我现在的做法更简单：吃完火锅，不收锅。锅就搁在灶台上，汤底放一晚上。第二天油脂凝成一整层固体，用筷子沿着边一撬，整块揭下来扔垃圾桶，剩下的汤倒掉，锅丢进洗碗机。两分钟搞定。不需要我记住什么，不需要调动意志力。当晚想收拾的冲动才是危险的，而「不动」比「动」容易多了。这个思路可以用在很多地方。给自己留撤回窗口：写完重要邮件设成延迟2分钟发送，系统自动给你反悔的机会。删文件怕删错，先扔进回收站。把草稿先存起来，让别人看一眼再发。或者让系统替你把关：提交代码总忘跑测试？CI流程里加一步自动测试，你忘了系统不会忘。转账怕转错？输两次金额再确认。医疗界很早就想通了这件事。手术部位标记制度出现之前，错部位、错患者手术虽然不算高频，但后果严重到不可接受[2]。后来WHO引入术前核查清单，让团队在每台手术前逐项确认。它做的事很简单：把「人的记忆」换成「系统的确认」。我自己的感受是，「吃完火锅不洗锅」和WHO的核查清单，看着不是一个量级，但背后的逻辑是一样的：别赌自己在关键时刻不犯错，想办法让犯错变难。前几天又吃了一次火锅。吃完收拾桌子的时候，照旧有一瞬间想端起锅去水槽冲一冲。但我就是没动。锅搁在灶台上，我去看了会儿手机，睡觉了。第二天早上，锅里的油脂凝成了厚厚一层红褐色的固体。我拿筷子沿着边一撬，整块揭了下来，扔进垃圾桶。剩下的汤倒掉，锅塞进洗碗机。两分钟搞定。说实话，脑子里没有闪过什么「这是不可逆操作」的念头。我只是懒得当晚洗锅而已。但这次懒对了。我不知道这算不算学到了教训。大脑的老路还在那里，意志力有掉线的时候。但至少目前，我不再觉得「下次注意」是个靠谱的方案了。 [1] Columbia Accident Investigation Board Report, Chapter 6 [2] WHO Surgical Safety Checklist [3] James Reason, “Human error: models and management”, BMJ 2000 ...

不要让 AI 批改自己的试卷 —— 一次 16 处遗漏的协作复盘

不要让 AI 批改自己的试卷 —— 一次 16 处遗漏的协作复盘 Tokscale 是一个开源的 AI 编程助手用量统计工具。它扫描本地各 AI 编程助手（Claude Code、Codex CLI、Gemini CLI 等）的会话文件，解析每次对话的 token 消耗量并汇总成本。技术上，Rust Core 负责解析各家助手的本地会话格式并提取 token 数据，TypeScript CLI/TUI/Frontend 负责过滤、展示和提交统计结果。 TypeScript 编译零错误，clippy 零 warning，CLI 返回正确数据。AI 报告「代码完成」。 submit 功能完全失效。前端校验拒绝含新数据源的提交请求。文档多处描述与代码不一致。这些问题在首轮验收中全部隐形——不是检查者忽略，而是现有验证手段从结构上无法触及。测试全绿只证明覆盖了多少，不证明质量。一个新增枚举值需要在 26 个触点注册，约 8 个缺失会触发编译错误，剩余 18 个全部遗漏也编译照过、测试照绿，功能链路静默断裂在中间层。遗漏是一种 absence——在缺乏穷尽匹配约束的代码层中，absence 不报错。本文解剖一个真实任务：为 Tokscale 添加第 10 个数据源（Kimi），28 个文件修改、约 300 行新增 Rust 代码、横跨 6 个架构层。AI 首轮交付后，第一轮验收发现 0 个问题，第二轮发现 12 处遗漏，第三轮追出 3 处——每一层用不同的验证方法捕获前一层的盲区。本文同时复盘了每一轮验收背后的 Prompt——人类如何提问，直接决定了 AI 能暴露多少盲区。同一个 AI，面对不同的提问方式，交出的答案质量天差地别。读完本文你会了解：测试全绿为什么不等于功能完整；四层互补的验收手段如何系统性地捕获遗漏；哪些 Prompt 策略有效、哪些无效；以及如何在设计阶段就预防大部分问题。 ...

从一个 WebSocket 到四个组件：多端操控 AI Coding CLI 的架构演化

从一个 WebSocket 到四个组件：多端操控 AI Coding CLI 的架构演化手机远程操控电脑上的 AI Coding CLI，直觉上只需一个 WebSocket。CLI 在电脑上跑着，手机连上去，发消息，收输出，结束。 Kimi CLI 的 Web UI 做到了这一步。执行 kimi web，本地起一个 HTTP + WebSocket 服务，浏览器打开就能用。底层 Wire 协议（JSON-RPC 2.0）支持多个 WebSocket 客户端同时接入，消息通过 BroadcastQueue 广播给所有订阅者。手机套个 WebView 就行了？但 Happy 项目把同样的需求拆成了四个独立组件：CLI、Daemon、Server、App。四个进程，三种 Socket 连接类型，一套 RPC 转发机制，外加端到端加密（E2EE）。为什么？这篇文章用两个真实项目的源码回答。从最简的直连方案开始，每遇到一个绕不过去的约束就加一个组件。四层方案逐层淘汰，最终会发现：四组件不是过度设计，而是五个硬约束逐层叠加的必然结果。读完后能得到：每个组件存在的「不可替代的理由」，以及没有它会怎样 Happy 和 Kimi CLI 在消息路由、进程管理、控制权协调上的关键设计细节一棵决策树，根据自己的场景判断需要几个组件、哪些可以省现有 Wire 协议哪些能复用、哪些必须新增的分层分析阅读路线：只想知道为什么不是一个 WebSocket → 第 1 节 + 小结想理解 Happy 的核心机制 → 第 4 节（scope / RPC / 租约 / E2EE）+ 第 5 节（Daemon）想设计自己的远程操控系统 → 第 6.3 节（五维度扫描）+ 小结决策树想做协议复用 / 迁移评估 → 第 7 节 1. 五个硬约束拆解方案之前，先定义检验标准。「手机远程操控电脑上的 AI Coding CLI」拆成五个约束： ...

用 300 行 Swift 让 iPhone 变成 Kimi CLI 控制台

用 300 行 Swift 让 iPhone 变成 Kimi CLI 控制台你在咖啡馆喝完拿铁，突然想起 Mac 上挂着的 Kimi CLI 正在跑一个代码分析任务。你掏出手机，打开一个原生 App，看到 Agent 的输出正在实时滚动，已经跑完三分之二。你追加一条新指令，然后继续刷朋友圈。这不是科幻场景。只需要约 300 行 Swift 代码，零第三方依赖，就能把 iPhone 变成功能完备的 Kimi CLI 控制台。手机端并不是把 CLI 跑在手机上，而是给 Kimi 已有的 Web UI 套一层原生壳，借助 WebView 直接复用现有界面。这个项目的特点是代码量少，更多时间花在理解架构和拆解任务上。 TL;DR — 读完你会得到什么理解 Kimi CLI 的「内核 + 多前端」架构，以及 Web UI 为什么能让移动端封装变得低成本掌握 useSessionStream 中两个关键设计：wsRef 连接守卫 + Ref 流式累积知道 WKWebView 封装的三个必踩坑：ATS 权限 / JS 弹窗 / 真机网络获得一个可复用的工程模式：「本地 Web 服务 + WebView」学到一套面对不确定目标的拆解方法：把大问题拆成可验证的小实验阅读路线：如果你只想 30 分钟做一个 iOS 壳，直接跳到第 4 节 + 第 5 节 + Quick Start。如果你想理解 Web UI 的通信机制或基于 Wire 协议做自定义客户端，重点读第 2 节。 ...

选工作，你在看朋友圈还是体检报告？

「选工作最重要的是跟对人。」这句话你一定听过。不止听过，大概率还深信不疑。因为有切身体会。你有没有经历过这样的时刻：换了一个领导之后，同样的工作突然变了味道。之前觉得干什么都拧巴，每天上班像在水里走路。换了一个人带你之后，信息开始透明，你知道自己在干什么、为什么干、干好了会怎样。你甚至觉得自己变聪明了，但其实不是你变了，是你上面那个人变了。好领导的作用不止「让你舒服」。一个好的领导会改变你的判断力本身。他让你看到更大的系统，而不只是手头的任务。他做决策的时候，你在旁边看着，学到的不是他做了什么决定，而是他怎么想问题。这种东西，换一个人带你，接触不到。在中国职场，「跟对人」更不是一句鸡汤。人治成分依然很重的环境里，好的领导能帮你绕过制度性的障碍，能把资源往你手里倾斜，能在关键时刻替你挡压力。这是中国组织生态里一个冷冰冰的现实。所以你告诉我「选工作最重要的是跟对人」，我不会反驳。我甚至觉得你可能还低估了这件事。在大组织里，你的直属上级就是你的「微型生态系统」。他决定了你能看到什么信息，接触什么项目，得到什么反馈。你以为你在一家大公司工作，其实你在你领导构建的那个小世界里工作。创业场景里这一点放大到极致。五六个人的团队，创始人就是一切。「跟对人」几乎等于「选对一切」。但也正因为「人」在这个等式里权重这么大，你对「人」的判断质量就变得生死攸关。这就是为什么，当你遇到一个「看起来对的人」时，你会那么兴奋。你遇到了一个人。简历亮眼，聊起来逻辑清晰、视野开阔，对行业的理解让你觉得「他确实想清楚了」。你们聊了一个多小时，他谈起自己想做的事情的时候眼睛里有光，不是浮夸的激动，而是经过思考的笃定。散场的时候直觉告诉你：就是他了。你甚至觉得自己做了充分的判断。回去问了两三个朋友，评价都不错。看了融资新闻，投资方的名字你认识。又深聊了一次，信心又涨了一层。心里已经开始规划入职之后要做的第一件事了。你签了 offer。你觉得这一次，终于跟对了人。三种判断方式，三个结构性盲区但这里有一个问题。一个你可能没注意到，但会决定这个选择最终走向的问题。你判断「这个人对不对」，用的是什么方法？仔细想想，大多数人判断一个人靠不靠谱其实只有三招。第一招是直觉：「我跟他聊下来感觉很靠谱。」第二招是光环：「他的履历很强，背后的投资人也很好。」第三招是口碑：「我认识的几个人都说他不错。」这三招在日常场景里好使。但恰恰在「选团队」这个场景里最容易失灵。因为这三招识别的都是信号，而信号和系统之间的距离，比你以为的大得多。我不是说你错了。这套方法在别的场景下有效，但在这个场景下有结构性的盲区。一个个来看。先说直觉。你觉得「跟他聊完感觉很靠谱」，这个判断是怎么形成的？心理学家 Chase 和 Simon 在 1973 年做过一个经典实验。他们让国际象棋大师看一眼真实的棋盘，凭记忆复原棋子位置。大师几乎能完美复原，远超新手。但接下来研究者把棋子随机摆放，不符合任何真实棋局的规律。这一次，大师的记忆力突然跌到和新手一样。为什么？因为大师的「超能力」不是记忆力，而是模式识别。他记住的不是一个一个棋子，而是棋局的「叙事结构」。棋盘符合已知模式时，大脑自动补全。模式被打乱，能力就失效了。这跟你选团队有什么关系？关系太大了。「大厂高P出来创业，拿了一线基金，做的是热门赛道。」这些信号组成了一个你熟悉的「成功模式」。你的大脑自动启动补全机制：现金流？「一线基金投了，没问题。」决策质量？「大厂管过几百人的团队。」你以为自己在判断，其实在做模式匹配，把缺失的信息用「合理推断」填上了。但创业不是随机摆的棋子，它有它的规律。问题在于，这个规律的变量比棋盘多太多了，结果的分布更极端，反馈周期也长得多。你从一个人的履历、融资这些有限信号里推断「这个团队能运转」，误差会被放大到你想象不到的程度。你的模式识别能力，在这里不是帮你判断，而是帮你跳过判断。更麻烦的是，一旦大脑倾向于一个选择，认知能力不会帮你找反对理由，它会帮你找支持理由。你越聪明，找到的理由越像样。公司突然裁掉一个干得不错的人，没给任何说法。你心里不舒服，但转念一想：「他管过那么大的团队，判断维度肯定比我多。」你用自己的聪明帮他合理化了一个本该让你警觉的信号。能力没有成为纠错器，反而成了偏见的放大器。聪明人踩的坑有一个特殊性：每一个错误决策都穿着「逻辑自洽」的外衣。不是盲目相信，是「理性地」说服了自己。这种错误特别难修正，你很难从一个自认为「理性」的错误中学到教训。再看光环。光环的问题不在于「没有信息量」，而在于它提供的信息量和它在你脑中占据的权重不成比例。一个很多人没想过的问题：大厂教会一个人的能力，和创业需要的能力，是同一种东西吗？在大组织里，成功的底层逻辑是「优化已知」。方向是上面定的，用户基数是平台给的，增长预算是公司批的。你的厉害之处在于把转化率从3%做到5%，把日活从一千万拉到五千万。但这有一个隐含前提：有人已经替你验证了方向是对的。创业需要的是「验证未知」。方向本身不确定，没有用户基数，没有现成资源。你要做的不是把对的事做得更好，而是在一堆错的事里找到那件对的。这不是难度不同，是物种不同。有一种创业团队特别常见：创始人从大厂出来，核心班底全是老同事，融资 PPT 第一页就是一排大厂 logo。但他们的默契建立在大厂的资源、流程和安全网上。离开那个系统，面对的不再是从80分到90分的优化题，而是从0到1的生存题。过去的默契不但帮不上忙，甚至变成路径依赖。他们会本能地用大厂的方法论去解一个根本不是大厂的问题。打个比方，光环可能把创业成功率从3%提高到了5%。这不是精确统计，只是为了说明一个感知上的落差：光环带来的实际优势远没有你以为的那么大。但人们心里感知到的提升是从30%到70%。这个感知差距，就是聪明人反复踩坑的心理基础。我不是说光环毫无价值。这些信息不是零。但看到光环之后不要停在那里，继续追问背后的东西。只看光环就做决定，那做的不是判断，是自动补全。最后一招：口碑。你入职前找了三个人打听。三个人一致说「老板人很好，很有格局」。你放心了。后来才知道，这三个人都是创始人从老东家带过来的嫡系。那些待了半年就走的人，你一个也没问到。你的「尽调」样本，被幸存者偏差扭曲了。口碑的问题还不止于此。哪怕你问到的人是客观的，「他人很好」本身信息量也有限。因为信号的伪造成本和验证成本不对称。「我们的文化是扁平、透明、尊重人」，说出来十秒钟，验证它需要你在里面工作六个月。这里要说一件事。这篇文章不是在说创始人是骗子。大多数创始人是真诚的。但真诚不等于正确，善意不等于能力。一个「真诚地相信明年能融到钱所以今年先不发年终奖」的创始人，和一个刻意画饼的创始人，对你的实际影响没有区别。你的年终奖都没了。所以你要判断的不是「他是不是好人」，而是「这个组织的系统能不能运转」。好人在烂系统里，也会做出让你付出代价的决策。不是因为他变坏了，是因为结构在奖励那种行为。没人想戳破的信号泡沫但为什么偏偏是这三招成了你最依赖的判断方式？答案让人不太舒服：因为双方都从中获益。不是一方在骗，另一方在被骗。是双方都有动力让这个游戏继续。创始人一方，包装光鲜信号收益大、成本低、风险小。讲一个好故事不花钱，大多数候选人在入职前根本不会追问到系统层面。你这一方，也有动力去相信。相信意味着可以跳过繁琐的尽调，意味着做了一个「聪明」的选择，意味着即将加入一个有前途的团队。而质疑呢？质疑意味着要面对焦虑，要放弃让你激动的机会，要承认自己的判断可能有问题。当你已经在心理上倾向于接受一个 offer 的时候，大脑的首要任务不是「找出问题」，而是「确认它是对的」。卖方有动力包装，买方有动力相信。一个稳定的「信号泡沫」就这么形成了。你的加入还会强化泡沫。「连他都去了，说明真的不错。」更多人被吸引进来，泡沫越滚越大，直到有一天现实击穿叙事。朋友圈还是体检报告那到底该看什么？用一个类比来说。判断一个人的健康状况，你看他的朋友圈还是体检报告？朋友圈是「展示出来的健康」：跑步打卡、晒健康餐、精神饱满。体检报告是「运行中的健康」：血压、血糖、肝功能。朋友圈可以完美无缺，体检报告一塌糊涂。判断团队也一样。创始人的演讲风格、融资新闻、办公室氛围，这些是朋友圈。工资是否按时发、加班制度有没有白纸黑字、「融资不顺怎么办」能不能用数字回答，这些才是体检报告。大多数人选团队的方式，就像看着一个人的朋友圈判断他还能活多久。我知道这个类比听起来刺耳，但信息不对称的本质就是这样。选团队说白了是在「信息极度不对称下做高风险投资决策」。你投入的不是钱，而是比钱更不可逆的东西：一到三年的时间、职业声誉、身心健康。投资人可以做组合，投一百个项目有一个成了就够回本。你不能做组合，两到三年只能 all in 一个团队。从风险管理的角度说，你应该比投资人更审慎。但现实反过来：投资人有尽调流程，你靠感觉。这就引出了一个根本性的区分。信号，是别人想让你看到的东西。系统，是你需要自己去验证的东西。你不可能通过堆积更多信号来替代对系统的验证。信号不是垃圾，它是你的起点。但起点不等于终点。你需要用系统层面的验证去更新你最初的判断，而不是停在起点上不动。三个系统：信用、决策、经济那「系统」具体是什么？拆成三个部分。先说一句：这套框架不是放之四海皆准的。它对「组织越小、信息越不对称、创始人权力越集中」的场景越关键。在成熟的大组织里，很多系统级的保障已经内置了，HR、合规、流程都在替你做一部分把关。但哪怕在大公司，「直属上级就是你的微型生态」这个逻辑仍然成立。你的上级怎么用权力，这套框架一样适用。第一个，信用系统。核心问题：这个组织是用契约在运转，还是用话术在运转？举一个你可能经历过的场景。谈 offer 的时候你问年终奖怎么算，HR 说「看公司情况，一般两到四个月」。你追问能不能写进 offer，HR 笑着说「这个真写不了，但我们从来没少发过」。你签了。年底，拿到了零。找 HR 理论，对方翻出 offer 说「上面确实没写」。 ...

为什么有些人越忙越穷，有些人越闲越富

为什么有些人越忙越穷，有些人越闲越富？四个故事下面这些故事，是我从身边和网上常见的模式里拼出来的，细节做了简化。小雨每天学到凌晨一点。笔记记了十二本，错题本工工整整抄了三遍。她妈妈心疼，但也骄傲，至少孩子在努力。她的同桌小凡每天十一点就睡了，但小凡做了一件不同的事。把每次模考的错题按知识漏洞分类，每一类只做三道典型题，然后讲给同桌听。期末考试，小凡比小雨高了40分。这个例子不涉及钱。但它说的那件事，出了学校同样成立。张琳是一家中型公司的市场总监。周五晚上十一点，她还在改第二天要给老板汇报的PPT，措辞改了五遍，每个像素都调到完美。第二天老板花三分钟翻完，说了句「方向可以，推进吧」，然后去打高尔夫了。她改到凌晨，他三分钟定方向。到底谁的时间更值钱？不只是打工人。自己单干也一样。设计师小陈在闲鱼接logo设计，一单500块，改三次，前后花两天。一个月满打满算15单，7500块。春节想多挣点，把自己逼到每天只睡五小时，差点进医院。他的一个朋友做了一套Figma设计模板放在Gumroad上，定价99美元，每月被动收入两三千美元。那朋友现在每天下午三点去咖啡馆坐着。一个在用命换钱，一个睡着都在赚。再看一个你每天路过的场景。你家小区门口有个煎饼摊。大叔凌晨四点半出摊，站到上午十一点，一天卖150个煎饼，一个赚两块，日入300。他干了八年，每天都是这个数字，因为他的产能上限就是一双手、一口锅、七个小时。抖音上有个人拍了一条「教你在家摊煎饼」的视频，三分钟，播放量两百万。他靠这个号接了一个厨具品牌的年度代言，五十万。同样的知识。一个被一双手和一口锅锁死，一个被算法放大了几百万倍。你有没有注意到一件反常的事？在这四个故事里，最忙的那个人，收入最低。看起来最闲的那个人，收入最高。这不是巧合。努力和产出之间，从来不是一比一的关系。两种努力要理解为什么忙碌不等于高产出，得先分清两种根本不同的努力。第一种叫线性努力。你投入多少时间，产出多少成果，一比一绑定。多干一小时，多赚一小时的钱。第二种叫杠杆化努力。你做一次，被放大一万次。投入和产出脱钩了，不在同一个维度上。一个人每天工作十六小时，没有杠杆，上限就是十六小时的劳动成果。另一个人每天工作四小时，但他写的代码在替一百万人解决问题。厨师一天最多炒三百盘菜。无论他多勤奋，上限就卡在那里。但如果他把最拿手的菜谱写成标准化流程、教会五十个学徒，这个系统每天能产出一万五千盘。手艺没变，变的是放大倍数。麦当劳的创始人雷·克罗克不会做汉堡。但他设计了一个让任何人都能做出标准汉堡的系统，每天替他服务近7000万人。麦当劳不是餐饮公司，是系统复制公司。克罗克本人很闲，但他比任何一个忙碌的厨师都富。其实杠杆不是一个开关，不是「有」和「没有」两种状态。它更像一道阶梯。最底下一级是纯执行。一双手，一口锅，干一小时算一小时，杠杆倍数是零。往上走一级，你把干活的经验记下来了，变成笔记、变成模板。下次再干同样的事，快了一倍，这就有了一点点杠杆。再往上，模板变成流程，流程交给别人跑，你用人力把自己复制了出去。再往上，流程写成代码，或者做成产品，它不需要任何人盯着就能跑，一天跑二十四小时也不累。最顶上那一级是资本和媒体，钱在替你做决策，内容在替你触达陌生人，你睡着的时候它们还在干活。代码、媒体、流程、人力、资本，这五种东西本质上都是杠杆，只是放大倍数不同。设计师从接单到做模板，就是从纯执行跳到了产品那一级。煎饼大叔如果把手艺写成流程、教会十个人，就是从零杠杆跳到了人力那一级。每往上走一级，你的时间和产出就脱钩一点。不用一步到顶。先把今天干的事记下来，就已经在爬了。一个残酷的测试有一个残酷的测试可以判断你在哪条轨道上。如果你明天倒下了，收入会不会也跟着倒下？如果会，不管你名片上印的是「自由职业者」还是「CEO」，你卖的都是时间。很多人以为自己跳出了卖时间的陷阱，其实只是换了一个更贵的时薪在卖。从按月卖变成按小时卖，从卖给一个老板变成卖给十个客户。模式没变。真正从「卖时间」跳到「卖系统」的人，做了一件不同的事。把自己解决问题的方式变成了一个产品。一段代码、一套流程、一个品牌。产品的特征是你造了一次，它可以卖一万次，不需要你在场。Eric Barone一个人、一台电脑、四年半，做出了全球销量超4000万份的星露谷物语。代码在替他7×24小时卖货。同样是忙四年，有人忙出了一份工资，有人忙出了一台永不停歇的印钞机。区别就在这里。你忙的那件事，做完之后还在不在替你工作？你可能在想，星露谷物语、麦当劳，这不都是幸存者偏差吗？没错，这些是极端值。用了杠杆不保证你成功。但我想说的不是「用杠杆就能暴富」，而是「不用杠杆就一定有天花板」。这是两个完全不同的命题。前者是彩票逻辑，后者是物理约束。一天只有24小时，你的产出上限就卡在那里。杠杆不保证你赢，但没有杠杆，保证你赢不大。不过事情没那么干净。杠杆放大的是能力，如果能力本身还没长出来，放大一万倍也是零。在练基本功的阶段，老老实实把手艺磨扎实，就是对的策略。杠杆不能替你跳过那一步。另外，不是所有行业的杠杆都长得像代码和短视频。一个外科医生的杠杆可能是流程和团队，一个手工匠人的杠杆可能是品牌和学徒体系。形态不同，但逻辑一样，都是把个人能力从一双手里解放出去。还有一件容易忽略的事。杠杆在放大收益的同时，也放大了波动。写代码做产品可能花半年一分钱没赚到，发内容可能两百条都没人看。不是每个人当前的处境都适合承受这种不确定性。承认这一点，不丢人。这里有个问题。权力、人力、资本这些杠杆都需要许可。你得先当上领导、先有钱、先有信用，才能动用。但代码、AI和社交媒体不需要。你今晚就可以开始写一个小程序、发一条内容、用AI搭一个自动化工作流。没有人需要给你一把钥匙，钥匙已经放在桌上了。这是人类历史上第一次，几种强大的杠杆工具，门槛低到接近免费。考公上岸的同学需要层层审批才能做一个决定。做短视频的同学一个人、一台手机，前一年半零收入，被父母天天骂不务正业，最近半年突然爆了，一条广告报价五万。他用的就是不需要任何人许可的媒体杠杆。我猜你现在想说。道理我都懂，但我连睡觉的时间都不够，哪有空建系统？这个反驳是对的。不是所有人都有「停下来」的条件。有些人的忙碌不是选择，是没有选择。但没有人要求你明天辞职去创业。杠杆可以从极小的地方开始。你每天重复做的那件事，能不能写成一个模板？你踩过的坑，能不能记下来变成别人也能用的经验？从「完成任务」到「积累资产」，有时只差一个意识的转变。如果你还是觉得太抽象，试试这样。学生党，把这学期反复出错的那类题整理成一页速查表，发到班群里。你自己搞懂了，同学也省了翻课本的时间，这张表就是你的第一个杠杆。上班的，想想每周重复做的那份报告，能不能花一个下午写成自动化模板？搭一次，以后每周省两小时，一年省掉一百小时。自由职业的，你一定有一个问题被客户反复问。把回答写成一篇FAQ文档，下次直接甩链接，省下来的时间去接下一单。方法很简单。每周列一下自己重复在做的事，挑最烦的那件，写成模板或文档，下周看看是不是真的省了力气。如果省了，恭喜，你有了一个可复用的资产。如果没省，换一件再试。一周一个小实验，成本几乎为零。判断标准也很简单。杠杆不是做更大的事，而是让同一件事下次更省力，能被更多人复用。但这还不是全部。如果杠杆的逻辑这么清楚，线性努力有天花板，杠杆化努力的天花板高得多，为什么大多数人还是困在第一种模式里？三把锁不是因为笨，也不是因为不想改变。真正卡住人的，是比「知不知道杠杆」更深一层的东西。第一把锁，大脑。人的大脑偏爱确定性和即时反馈。线性努力恰好满足这两点。你多干一小时，多赚一小时的钱，大脑的奖赏回路持续激活。而杠杆化努力的早期是反馈黑洞。你花六个月写一个产品，可能一分钱没赚到。你发了两百条内容，播放量还是个位数。大脑讨厌这种延迟回报。这不是意志力问题，是进化留下的神经机制。狩猎采集时代，「这棵树上有果子」比「半年后那块地会长出庄稼」重要一万倍。我们的大脑还在用旧世界的评分系统给新世界的选项打分。所以线性增长让人上瘾。每年涨薪10%，每月多接几个客户，你觉得生活在变好。但如果你画出那条曲线，它是一条直线。直线的特征是有尽头。你一天能工作的时间是有限的，那就是你的产出天花板。无论你多勤奋，你都不可能把一天活成四十八小时。线性增长不是增长，是一种伪装得很好的天花板。但因为它有即时反馈，人们宁愿在天花板下安心地忙碌，也不愿走进那条看不见终点的隧道。第二把锁，文化。「勤劳致富」是工业时代的逻辑。工厂需要工人按时到岗、按件计酬，所以「投入时间＝创造价值」在那个时代是成立的。整个社会的道德体系、教育体系、评价体系都围绕这个等式搭起来。学校按出勤打分，公司按工时考核，社会按「看起来忙不忙」评价一个人。「我很忙」成了一种社交货币，暗示你被需要、有价值。知识经济早就改变了游戏规则，但我们的道德直觉没有跟上。我们把忙碌当成勤奋的勋章。但仔细看，它更像一份诊断报告。一个人必须事事亲力亲为，不是因为他不可替代，而是因为他还没有建起任何一个替他工作的系统。CEO可以去度假三周，公司照常运转。不是因为他懒，是因为他花了多年搭了一个不依赖他在场的组织。忙碌不是价值的信号。它是系统还没建好的信号。第三把锁，参考系。煎饼大叔每天出现在你面前，你看到他的辛苦。但那个拍煎饼视频赚五十万的博主，你看不到他前一年半零收入、被父母骂不务正业的阶段。杠杆的建造过程是不可见的，只有结果是可见的。所以大多数人的参考系里，根本没有「杠杆化努力」这个选项。你不知道它存在，不去寻找相关信息，社交圈也都是卖时间的人，就更加确信努力是唯一的路。这是一个自我加强的闭环。三把锁同时锁住。大脑、文化、参考系，都在把你推向同一条路。更忙、更累、更多时间换更多产出。怎么打开要打开这些锁，第一步不是找工具，不是学技术，而是接受一个听起来很荒谬的说法。真正的勤奋，不是永远在忙，而是让自己闲下来。这里说的「闲」，不是什么都不做。而是把忙的内容从「执行」迁移到「建系统」，让系统替你执行。有一种勤奋是每天忙到深夜，日程排得密不透风，倒头就睡，第二天再来一遍。还有一种勤奋是花大量时间思考一个问题。我怎么才能不再需要做这件事？前者的结局是越来越忙。后者的结局是越来越闲。但那个闲不是偷来的，是建出来的。我知道你在想什么。这不是给懒惰找借口吗？这个担心合理。但懒惰是逃避投入。我说的「闲」不一样。你先拼命建了一个系统，然后系统替你忙。一个是起点的闲，一个是终点的闲。区分方法很简单。懒的人闲完之后什么都没留下，建系统的人闲完之后多了一个替他工作的东西。还记得那个改PPT到凌晨的张琳吗？她的问题不是不够努力。她可能是整个公司最努力的人。但她所有的努力，都花在杠杆的长臂末端，做的是最容易被替代的执行工作。也许有一天，她不是在改PPT，而是在设计一个让团队自己就能做出好PPT的流程。那时候她也许会更闲。但那个闲，不是因为她放弃了，而是因为她终于建好了一个不需要她在场的系统。我不确定每个人都能找到自己的杠杆。但我确定的是，如果你从来没想过这个维度，你连找的机会都没有。也许真正难的不是找到杠杆，而是放下「忙碌＝有价值」这个让你安心了二十年的等式。

Yousa Driven Development (YDD)

最近在写些什么