Agent-first Engineering OS

Yousa Driven Development (YDD)

面向 AI 协作编程的实践手记

把自己在腾讯的一线工程经验 + AI 协作实验都放进一册「YDD」。不卖课,只是把真实的工程笔记、踩坑、工具链迭代写清楚。

  • Infra Notes

    Golang、K8S、OpenResty、APISIX、Istio、Envoy 的落地记录

  • AI Pairing

    让模型当队友的 Prompt/Agent/工具链实验手记

  • Personal Stack

    写作、知识管理、Dev Workflow 的自定义脚本与仪式感

YDD Sprint

最近在写些什么

聚焦「AI 协作编程」&「云原生基础设施」的真实进展。

  • APISIX / Envoy 的插件实践 & 边车策略
  • 把 LLM 接入工作流:Prompt 合同、工具协议、回放机制
  • 如何把写作、产品、工程节奏融合成一个长期栈

为什么有些人越忙越穷,有些人越闲越富

为什么有些人越忙越穷,有些人越闲越富? 四个故事 下面这些故事,是我从身边和网上常见的模式里拼出来的,细节做了简化。 小雨每天学到凌晨一点。笔记记了十二本,错题本工工整整抄了三遍。她妈妈心疼,但也骄傲,至少孩子在努力。她的同桌小凡每天十一点就睡了,但小凡做了一件不同的事。把每次模考的错题按知识漏洞分类,每一类只做三道典型题,然后讲给同桌听。期末考试,小凡比小雨高了40分。 这个例子不涉及钱。但它说的那件事,出了学校同样成立。 张琳是一家中型公司的市场总监。周五晚上十一点,她还在改第二天要给老板汇报的PPT,措辞改了五遍,每个像素都调到完美。第二天老板花三分钟翻完,说了句「方向可以,推进吧」,然后去打高尔夫了。她改到凌晨,他三分钟定方向。到底谁的时间更值钱? 不只是打工人。自己单干也一样。 设计师小陈在闲鱼接logo设计,一单500块,改三次,前后花两天。一个月满打满算15单,7500块。春节想多挣点,把自己逼到每天只睡五小时,差点进医院。他的一个朋友做了一套Figma设计模板放在Gumroad上,定价99美元,每月被动收入两三千美元。那朋友现在每天下午三点去咖啡馆坐着。一个在用命换钱,一个睡着都在赚。 再看一个你每天路过的场景。 你家小区门口有个煎饼摊。大叔凌晨四点半出摊,站到上午十一点,一天卖150个煎饼,一个赚两块,日入300。他干了八年,每天都是这个数字,因为他的产能上限就是一双手、一口锅、七个小时。抖音上有个人拍了一条「教你在家摊煎饼」的视频,三分钟,播放量两百万。他靠这个号接了一个厨具品牌的年度代言,五十万。 同样的知识。一个被一双手和一口锅锁死,一个被算法放大了几百万倍。 你有没有注意到一件反常的事?在这四个故事里,最忙的那个人,收入最低。看起来最闲的那个人,收入最高。 这不是巧合。努力和产出之间,从来不是一比一的关系。 两种努力 要理解为什么忙碌不等于高产出,得先分清两种根本不同的努力。 第一种叫线性努力。你投入多少时间,产出多少成果,一比一绑定。多干一小时,多赚一小时的钱。第二种叫杠杆化努力。你做一次,被放大一万次。投入和产出脱钩了,不在同一个维度上。一个人每天工作十六小时,没有杠杆,上限就是十六小时的劳动成果。另一个人每天工作四小时,但他写的代码在替一百万人解决问题。 厨师一天最多炒三百盘菜。无论他多勤奋,上限就卡在那里。但如果他把最拿手的菜谱写成标准化流程、教会五十个学徒,这个系统每天能产出一万五千盘。手艺没变,变的是放大倍数。 麦当劳的创始人雷·克罗克不会做汉堡。但他设计了一个让任何人都能做出标准汉堡的系统,每天替他服务近7000万人。麦当劳不是餐饮公司,是系统复制公司。克罗克本人很闲,但他比任何一个忙碌的厨师都富。 其实杠杆不是一个开关,不是「有」和「没有」两种状态。它更像一道阶梯。 最底下一级是纯执行。一双手,一口锅,干一小时算一小时,杠杆倍数是零。往上走一级,你把干活的经验记下来了,变成笔记、变成模板。下次再干同样的事,快了一倍,这就有了一点点杠杆。再往上,模板变成流程,流程交给别人跑,你用人力把自己复制了出去。再往上,流程写成代码,或者做成产品,它不需要任何人盯着就能跑,一天跑二十四小时也不累。最顶上那一级是资本和媒体,钱在替你做决策,内容在替你触达陌生人,你睡着的时候它们还在干活。 代码、媒体、流程、人力、资本,这五种东西本质上都是杠杆,只是放大倍数不同。设计师从接单到做模板,就是从纯执行跳到了产品那一级。煎饼大叔如果把手艺写成流程、教会十个人,就是从零杠杆跳到了人力那一级。每往上走一级,你的时间和产出就脱钩一点。不用一步到顶。先把今天干的事记下来,就已经在爬了。 一个残酷的测试 有一个残酷的测试可以判断你在哪条轨道上。如果你明天倒下了,收入会不会也跟着倒下? 如果会,不管你名片上印的是「自由职业者」还是「CEO」,你卖的都是时间。很多人以为自己跳出了卖时间的陷阱,其实只是换了一个更贵的时薪在卖。从按月卖变成按小时卖,从卖给一个老板变成卖给十个客户。模式没变。 真正从「卖时间」跳到「卖系统」的人,做了一件不同的事。把自己解决问题的方式变成了一个产品。一段代码、一套流程、一个品牌。产品的特征是你造了一次,它可以卖一万次,不需要你在场。Eric Barone一个人、一台电脑、四年半,做出了全球销量超4000万份的星露谷物语。代码在替他7×24小时卖货。同样是忙四年,有人忙出了一份工资,有人忙出了一台永不停歇的印钞机。区别就在这里。你忙的那件事,做完之后还在不在替你工作? 你可能在想,星露谷物语、麦当劳,这不都是幸存者偏差吗?没错,这些是极端值。用了杠杆不保证你成功。但我想说的不是「用杠杆就能暴富」,而是「不用杠杆就一定有天花板」。这是两个完全不同的命题。前者是彩票逻辑,后者是物理约束。一天只有24小时,你的产出上限就卡在那里。杠杆不保证你赢,但没有杠杆,保证你赢不大。 不过事情没那么干净。杠杆放大的是能力,如果能力本身还没长出来,放大一万倍也是零。在练基本功的阶段,老老实实把手艺磨扎实,就是对的策略。杠杆不能替你跳过那一步。 另外,不是所有行业的杠杆都长得像代码和短视频。一个外科医生的杠杆可能是流程和团队,一个手工匠人的杠杆可能是品牌和学徒体系。形态不同,但逻辑一样,都是把个人能力从一双手里解放出去。 还有一件容易忽略的事。杠杆在放大收益的同时,也放大了波动。写代码做产品可能花半年一分钱没赚到,发内容可能两百条都没人看。不是每个人当前的处境都适合承受这种不确定性。承认这一点,不丢人。 这里有个问题。权力、人力、资本这些杠杆都需要许可。你得先当上领导、先有钱、先有信用,才能动用。 但代码、AI和社交媒体不需要。你今晚就可以开始写一个小程序、发一条内容、用AI搭一个自动化工作流。没有人需要给你一把钥匙,钥匙已经放在桌上了。这是人类历史上第一次,几种强大的杠杆工具,门槛低到接近免费。考公上岸的同学需要层层审批才能做一个决定。做短视频的同学一个人、一台手机,前一年半零收入,被父母天天骂不务正业,最近半年突然爆了,一条广告报价五万。他用的就是不需要任何人许可的媒体杠杆。 我猜你现在想说。道理我都懂,但我连睡觉的时间都不够,哪有空建系统? 这个反驳是对的。不是所有人都有「停下来」的条件。有些人的忙碌不是选择,是没有选择。但没有人要求你明天辞职去创业。杠杆可以从极小的地方开始。你每天重复做的那件事,能不能写成一个模板?你踩过的坑,能不能记下来变成别人也能用的经验?从「完成任务」到「积累资产」,有时只差一个意识的转变。 如果你还是觉得太抽象,试试这样。学生党,把这学期反复出错的那类题整理成一页速查表,发到班群里。你自己搞懂了,同学也省了翻课本的时间,这张表就是你的第一个杠杆。上班的,想想每周重复做的那份报告,能不能花一个下午写成自动化模板?搭一次,以后每周省两小时,一年省掉一百小时。自由职业的,你一定有一个问题被客户反复问。把回答写成一篇FAQ文档,下次直接甩链接,省下来的时间去接下一单。 方法很简单。每周列一下自己重复在做的事,挑最烦的那件,写成模板或文档,下周看看是不是真的省了力气。如果省了,恭喜,你有了一个可复用的资产。如果没省,换一件再试。一周一个小实验,成本几乎为零。 判断标准也很简单。杠杆不是做更大的事,而是让同一件事下次更省力,能被更多人复用。 但这还不是全部。如果杠杆的逻辑这么清楚,线性努力有天花板,杠杆化努力的天花板高得多,为什么大多数人还是困在第一种模式里? 三把锁 不是因为笨,也不是因为不想改变。真正卡住人的,是比「知不知道杠杆」更深一层的东西。 第一把锁,大脑。 人的大脑偏爱确定性和即时反馈。线性努力恰好满足这两点。你多干一小时,多赚一小时的钱,大脑的奖赏回路持续激活。而杠杆化努力的早期是反馈黑洞。你花六个月写一个产品,可能一分钱没赚到。你发了两百条内容,播放量还是个位数。大脑讨厌这种延迟回报。这不是意志力问题,是进化留下的神经机制。狩猎采集时代,「这棵树上有果子」比「半年后那块地会长出庄稼」重要一万倍。我们的大脑还在用旧世界的评分系统给新世界的选项打分。 所以线性增长让人上瘾。每年涨薪10%,每月多接几个客户,你觉得生活在变好。但如果你画出那条曲线,它是一条直线。直线的特征是有尽头。你一天能工作的时间是有限的,那就是你的产出天花板。无论你多勤奋,你都不可能把一天活成四十八小时。 线性增长不是增长,是一种伪装得很好的天花板。但因为它有即时反馈,人们宁愿在天花板下安心地忙碌,也不愿走进那条看不见终点的隧道。 第二把锁,文化。 「勤劳致富」是工业时代的逻辑。工厂需要工人按时到岗、按件计酬,所以「投入时间=创造价值」在那个时代是成立的。整个社会的道德体系、教育体系、评价体系都围绕这个等式搭起来。学校按出勤打分,公司按工时考核,社会按「看起来忙不忙」评价一个人。「我很忙」成了一种社交货币,暗示你被需要、有价值。知识经济早就改变了游戏规则,但我们的道德直觉没有跟上。 我们把忙碌当成勤奋的勋章。但仔细看,它更像一份诊断报告。一个人必须事事亲力亲为,不是因为他不可替代,而是因为他还没有建起任何一个替他工作的系统。CEO可以去度假三周,公司照常运转。不是因为他懒,是因为他花了多年搭了一个不依赖他在场的组织。 忙碌不是价值的信号。它是系统还没建好的信号。 第三把锁,参考系。 煎饼大叔每天出现在你面前,你看到他的辛苦。但那个拍煎饼视频赚五十万的博主,你看不到他前一年半零收入、被父母骂不务正业的阶段。杠杆的建造过程是不可见的,只有结果是可见的。所以大多数人的参考系里,根本没有「杠杆化努力」这个选项。你不知道它存在,不去寻找相关信息,社交圈也都是卖时间的人,就更加确信努力是唯一的路。这是一个自我加强的闭环。 三把锁同时锁住。大脑、文化、参考系,都在把你推向同一条路。更忙、更累、更多时间换更多产出。 怎么打开 要打开这些锁,第一步不是找工具,不是学技术,而是接受一个听起来很荒谬的说法。 真正的勤奋,不是永远在忙,而是让自己闲下来。 这里说的「闲」,不是什么都不做。而是把忙的内容从「执行」迁移到「建系统」,让系统替你执行。 有一种勤奋是每天忙到深夜,日程排得密不透风,倒头就睡,第二天再来一遍。还有一种勤奋是花大量时间思考一个问题。我怎么才能不再需要做这件事?前者的结局是越来越忙。后者的结局是越来越闲。但那个闲不是偷来的,是建出来的。 我知道你在想什么。这不是给懒惰找借口吗? 这个担心合理。但懒惰是逃避投入。我说的「闲」不一样。你先拼命建了一个系统,然后系统替你忙。一个是起点的闲,一个是终点的闲。区分方法很简单。懒的人闲完之后什么都没留下,建系统的人闲完之后多了一个替他工作的东西。 还记得那个改PPT到凌晨的张琳吗? 她的问题不是不够努力。她可能是整个公司最努力的人。但她所有的努力,都花在杠杆的长臂末端,做的是最容易被替代的执行工作。也许有一天,她不是在改PPT,而是在设计一个让团队自己就能做出好PPT的流程。那时候她也许会更闲。但那个闲,不是因为她放弃了,而是因为她终于建好了一个不需要她在场的系统。 我不确定每个人都能找到自己的杠杆。但我确定的是,如果你从来没想过这个维度,你连找的机会都没有。也许真正难的不是找到杠杆,而是放下「忙碌=有价值」这个让你安心了二十年的等式。

February 14, 2026 · 1 min · 61 words · Miss-you

当浏览器自动化遇上平台风控:一次小红书发布工具的反检测实战

当浏览器自动化遇上平台风控:一次小红书发布工具的反检测实战 事情的起因很简单。我需要一个工具,自动把内容发布到小红书。 打开创作者中心,上传几张图,填标题,写正文,加话题标签,点发布。一篇两篇没问题,但每天要发几十篇的话,纯体力劳动。 自然想到浏览器自动化。写个脚本,模拟人在浏览器里的操作。 但我低估了难度。Playwright 的 API 很好用,模拟点击、填写、上传都有现成的方法,编码不难。难的是小红书的风控系统会识别出你在用自动化工具,然后封你。 下面是从被风控到稳定运行的调试记录,踩了 7 个坑。 为什么得用浏览器自动化 国内的内容平台,小红书、抖音、公众号,都不提供公开的发布 API。 海外不一样。Twitter、YouTube、Medium 都有 API,HTTP 请求直接发内容。国内平台对内容管控更严格,API 只给少数合作伙伴,普通开发者拿不到。 所以你想自动化发内容,只剩一条路。用代码打开浏览器,模拟人的操作。 主流工具有 Selenium、Playwright、Puppeteer,干的事情一样。启动一个浏览器实例,通过协议控制它。 但平台也不傻。 传统方案怎么被检测的 用 Playwright 的 launch() 启动浏览器,这个浏览器从出生那一刻就带着「自动化」的印记。风控脚本查几个点就够了。 最直接的是 navigator.webdriver。正常浏览器里这个值是 undefined,但 Selenium 和 Playwright 启动的浏览器是 true。一行 JS 就能判断。 1 2 3 if (navigator.webdriver) { // 自动化工具,触发风控 } 然后是浏览器指纹。UA 字符串可能带 HeadlessChrome,WebGL 渲染结果不同,Canvas 指纹不同,屏幕分辨率是固定的默认值。单个差异不起眼,组合起来就是明确的信号。 还有操作节奏。机器操作太整齐了,每次点击间隔恰好 500ms,输入速度完全一致。真人会犹豫,会停顿,快慢不一。 最后是「生活痕迹」。自动化启动的浏览器是全新实例。没有浏览历史,没有书签,没有扩展,没有其他网站的 cookies。像一个刚出厂的手机。 风控不需要多精密。它只问一个问题:这个浏览器环境真实吗? 不真实就触发验证码、限制发布、标记异常。 小红书自动发笔记 先说我要做的事。 写一个 Python 脚本。打开小红书创作者中心,登录,上传图片,填标题正文,加话题标签,点发布。 用 Playwright 写这个流程不难。page.click()、page.fill()、page.set_input_files() 都能直接用。 第一次跑,成功了。 第二次,还是成功。 第三次,弹了个滑块验证码。手动过了,继续。 ...

February 13, 2026 · 7 min · 1428 words · Miss-you

追赶者困境

谈到 LLM 产业,很多人会说「追赶者优势」。后发者少踩坑,跟进成本更低。真格基金合伙人戴雨森在张小珺的年终对话里讲得直接:美国头部实验室的高投入,「无法阻止中国模型低成本跟进」。 这种信心不是凭空来的。中国互联网最成功的公司之一,就是靠后来居上起家的。 QQ 不是第一个即时通讯工具,ICQ 才是。微信支付起步比支付宝晚了十年。《王者荣耀》也不是第一款 MOBA 手游。但腾讯每次都追上来了,而且经常超过去。 这些案例太深入人心了。以至于「追赶者优势」在中国互联网圈几乎成了默认叙事——别人趟过的坑我跳过去,别人教育过的市场我直接收割。 但追赶不是万能的。有一个领域,腾讯追了十年,追得很辛苦。这个后面再说。 2025 年国产模型在 coding 维度的跃迁很明显。智谱的 GLM-4.5 技术报告里,直接用 Claude Code 做智能体编程评测,把工程任务当作主战场。能力追上来了,速度比很多人想的快。 能力追上来了。但追上来之后呢? 2024 年 5 月那波大模型 API 降价把这事讲得直白。省下来的不是利润,是下一轮报价单里的让利空间。 5 月 21 日阿里云降价 97%。几小时后百度免费。第二天腾讯云免费。火山引擎更狠,0.0008 元/千 Token,比市面便宜 150 倍。 价格表里的零越来越多。所谓「追赶者优势」在商业上经常是句反话。后发者确实少踩坑,但省下来的钱,最后往往被迫用来把行业价格打穿。 投资人也信这套。不止一位投资人反馈,路演时听到「成本只有 OpenAI 的十分之一」,觉得是好消息。直到他们发现,每个来路演的团队都在讲同一个故事。当每个人都在讲同样的差异化故事,差异化就不存在了。 这个叙事太顺滑了。后发者省钱、少踩坑、站在巨人肩膀上。但有件事很少有人问:能力差距缩小了,利润差距缩小了吗? 能力追赶可以测量。benchmark 上的数字不会骗人。但价值捕获是另一回事。它藏在用户习惯里、藏在生态锁定里、藏在「虽然你也行,但我懒得换」的惯性里。追平功能只是入场券,利润池可能根本不在功能这个维度上。 追赶者优势的叙事默认一件事。你追的是一个「东西」。一个模型,一个产品,一个技术指标。追上了就算赢。 但 LLM 产业的领先者卖的不是模型。OpenAI 卖的是用户习惯,是 API 生态,是「出了问题有人兜底」的信任。你蒸馏出一个差不多强的模型,能蒸馏出这些吗? 这件事在云计算里发生过一遍。你以为追的是某个产品能力,实际上追的是一套会自我强化的商业系统。腾讯云追阿里云,就是一个把「追赶者困境」讲穿的案例。 腾讯云有人复盘过。2016 年觉得追阿里云只是时间问题,有钱有人。后来才明白,追的不是产品,是一个会自己滚雪球的系统。 2014-2016:红利期 2014 年手游市场爆发。腾讯是游戏霸主,自家游戏和被投公司自然都跑在腾讯云上,后来的《王者荣耀》把这个优势推到极致。2015 年直播行业爆发,斗鱼、虎牙等直播平台与腾讯云有公开合作案例,直播平台对 CDN 和音视频基础设施的需求,构成腾讯云早期增长的重要来源。追赶者优势的甜头,腾讯云吃到了。 2016-2018:困难显化 但 2016 年,阿里云在见市长。 2016 年云栖大会,王坚博士发布「城市大脑」,不跟政府官员讲 KV 存储、负载均衡,讲「用数据治理拥堵」「让城市会思考」。这把云计算销售层级直接拉到一把手工程。阿里云销售铁军拿着这个概念,全国各地见市长、见局长,疯狂跑马圈地。马云同年提出「五新」战略,全集团 All-in 数据化。客户的感觉是。买了阿里云,我就拥有了阿里巴巴的数字化能力。 「城市大脑」能把销售层级拉到「一把手工程」,不是概念喊得响,是从一开始就选了市长最在意、最容易量化的切口。治堵。 ...

January 13, 2026 · 2 min · 339 words · Miss-you
设计游戏的人,才不会被游戏玩

像玩游戏那样玩 AI

像玩游戏那样玩 AI 1/4 一个反直觉的问题 凌晨两点十七分,你对自己说「这是最后一条」。两点四十三分,你又说了一遍。 第二天早上,你下载了一个 AI 工具。用了五分钟,关掉了。图标沉到第三屏,再也没打开。 你对抖音没有学习意愿,但能刷三小时。你对 AI 充满学习意愿,但用不了十分钟。 我们通常会把它归结为:没时间、不够感兴趣、工具不顺手。 这些当然都可能成立。 但我后来发现,更常见的卡点是:短视频把「下一步」替你安排好了,而 AI 没有。你得自己把它放进流程里。 2/4 上瘾不是问题,问题是对什么上瘾 我们习惯把「上瘾」当贬义词。但仔细想想,上瘾的本质是什么? 做了一件事,得到奖励,想再做一次。 这套东西本身没好坏。它可以让你停不下来地刷视频,也可以让你停不下来地写代码、练琴、健身。 问题不在于你上瘾了,而在于谁在设计这个循环。 抖音的产品经理设计了一个算法,它比你更了解你。你以为在选择看什么,其实在被推着走。滑一下,奖励来了。再滑一下,又来了。继续不费力,停下才费力。 这就是被动上瘾。别人设计机制,你被卷入。 主动上瘾正好反过来。你自己设计机制,你选择卷入。 这里说的「上瘾」不是让你沉迷时间。而是让你不用靠意志力也能开始,但产出要能落到一个真实任务上。如果只是刷起来没有产出,那跟刷视频没区别。 你不是没有自制力。你只是一直在别人的游戏里玩。 2.5/4 一个容易混淆的地方 这里有个常见的误解:很多人觉得自己「用不起来 AI」是因为不够喜欢它。 但你对抖音也谈不上喜欢。你只是打开了手机,它就播了。 「喜欢」和「顺手」是两回事。 喜欢是情绪,会波动。今天喜欢,明天可能就腻了。 顺手是结构。它不依赖你当时的状态,只依赖「开始的摩擦有多低」和「反馈来得有多快」。 短视频强在这里:每一次滑动都是一个「可关闭的最小单元」。做完就结束,没有压力,随时可以再来一次。 而「学 AI」听起来像一个无限任务,给人压力。但「用 AI 改一句话」是一个可关闭的任务,做完就结束。 AI 用不起来,很多时候不是「不有趣」,而是「开始太像一件需要决心的事」。 3/4 两条规则,不是十条清单 有个叫福格的行为学家说过:行为 = 动机 + 能力 + 提示。 动机会波动,能力也确实会成为门槛,尤其是不知道怎么问、怎么用结果的时候。 但最容易被忽视、也最容易立刻改的,往往是「提示」:你有没有给 AI 安排一个默认出场的时刻。 没有这个时刻,AI 就永远停留在「我应该用」的层面。 所以我试下来,真正有用的就两条规则: 规则 1:默认出场时刻 找一个你每天都会做的事,把 AI 绑上去。 比如:打开文档 → 先让 AI 改第一段。不是因为你需要 AI 改,而是让「打开文档」自动触发「用 AI」。 ...

December 29, 2025 · 1 min · 108 words · Miss-you

我,一个重度极客用户,为什么觉得这代 AI 眼镜不适合我

我,一个重度极客用户,为什么觉得这代 AI 眼镜不适合我 ——以夸克 AI 眼镜为例 过去一年,我陆续体验了几款 AI 眼镜:包括带显示的那种(比如 Rokid 这一类),也包括不带显示、偏音频和拍摄的形态。与此同时,我一直在关注阿里系的夸克 AI 眼镜,从技术规格、评测视频到功能介绍看得比较细,即便体验过朋友的夸克 AI 眼镜后,也没有真正下单。原因很简单: 对我这种重度极客用户来说,这一代 AI 眼镜——以夸克 AI 眼镜为代表——还没有真正跨过《跨越鸿沟》里那条“鸿沟”。 下面我会用 Geoffrey Moore《跨越鸿沟》的框架,系统性拆解一下:为什么我不认为夸克 AI 眼镜是「我需要的东西」。(Wikipedia) 一、先说框架:《跨越鸿沟》给我的几个关键问题 《跨越鸿沟》讨论的是:高科技产品如何从早期发烧友,跨越到主流用户。书里提出了一个技术采用生命周期:创新者、早期采用者、早期大众、晚期大众和落后者,并强调早期采用者和早期大众之间存在一条“鸿沟”。(Wikipedia) 对我来说,最实用的几点工具是: 目标细分市场 不要一上来就说「面向所有人」,而要选一个足够具体的小人群,作为“登陆海滩”。 非买不可的理由(Compelling Reason to Buy) 对那一小撮人来说,这个产品必须解决一个「不用会很痛、用了会明显轻松」的问题。 完整产品(Whole Product) 不只是硬件和几个功能,而是包括:配套软件、服务、生态集成、品牌和渠道在内的完整解决方案。 心智定位(Positioning) 在用户脑子里,它到底被当成什么品类?耳机?相机?翻译机?还是「下一代终端」? 价格 & 使用频率 价格要和「我一年真实会用它多少次」匹配,否则就会被归类为“昂贵玩具”。 带着这套问题,我再看夸克 AI 眼镜,就会发现:它离「跨过鸿沟」——至少对我这种人——还有一段距离。 二、我是谁:一个站在“鸿沟边缘”的重度极客 先讲清楚我的位置。 我是典型的数字重度用户:手机、电脑、iPad 多设备切换,对各种 AI 工具、语音输入、会议转写软件都很熟。 我乐意为新玩具买单,但前提是: 要么解决了我实实在在的痛点; 要么让我「爽到爆」,情绪价值很高。 我的日常工作以知识劳动为主,会大量阅读论文、写东西、开线上会议。 用《跨越鸿沟》的话说,我更像是早期大众的前沿,而不是纯粹的“极客玩具收藏家”:我有技术好奇心,但不会为「只有炫技没有刚需」的硬件掏 4000 块。 所以,如果这代 AI 眼镜连我都打不动,那它要跨越到真正的主流用户,其实还挺难。 三、夸克 AI 眼镜到底在卖什么故事? 先基于公开信息快速勾一下夸克 AI 眼镜 S1 的轮廓: ...

December 11, 2025 · 3 min · 493 words · Miss-you

从「写代码」到「验代码」:AI 搭档写走 3 年,我踩出来的协作路线图

当 30% 代码都由 AI 写出来,我们该把时间花在哪? 从「写代码」到「验代码」的三年实战笔记 2022 年,我第一次在生产项目里用上 VS Code 的 Copilot,用它来写一个再普通不过的后端接口:登录、校验、打点日志。 我刚给函数写好名字、入参和返回值,函数体还一行没写,编辑器底部就灰出来一整段代码:参数校验、错误码、日志风格,甚至连变量命名都和我平时写得差不多。 那一刻我心里只有一个念头:「AI Coding 好牛!」 两小时后,测试环境里一个边界场景直接 panic,把服务干崩,罪魁祸首正是这段看起来「标准又优雅」的自动生成代码。那晚我第一次很具体地意识到:AI 写代码最危险的地方,不是它写不出来,而是它写得「看起来对,其实不对」。 三年过去,到 2025 年,各大厂公开的数据和访谈里不断提到类似的数字:工程师新写的代码里,大约 20%–30% 已经是 AI 生成的,一些激进团队甚至做到 50%。 但很多已经上手 AI Coding 的工程师,包括当时的我自己,却有很相似的感受:写的代码变多了,背的责任更重了,人反而更累。 我叫厉辉,网名 yousa。在大厂写了很多年后端,也在开源社区混过几轮(当过 Apache 项目贡献者和 CNCF Ambassador)。从 2022 年开始,我几乎每天都在和各种 AI Coding 工具打交道:从 VS Code 里的 Copilot,到 Cursor、Windsurf,再到 Codex、Trae SOLO 这一类更「重」的 Agent。 这篇文章写给已经在或准备在真实生产项目里用 AI Coding 的后端 / 全栈工程师和技术管理者。 它不会教你「按钮在哪里」「哪个 prompt 最神」,而是想在大约 15 分钟里,帮你搞清楚三件事: 哪些任务交给 AI 最「划算」 怎么让项目本身变得更「AI 友好」,提高一次命中率 当生成不再是瓶颈时,工程师应该如何设计验证流程,把时间花在真正值钱的地方。 文中的例子主要来自互联网业务后端,但你可以类比到自己的技术栈。 ...

November 24, 2025 · 4 min · 703 words · Miss-you

Claude Code 还是 Codex?贵但强 vs 便宜但稳

纠结 Claude Code 还是 Codex?一个贵 4 倍但 SWE-bench 高 3%,一个便宜但社区说"更稳定"。这里有最短路径:同一仓库、同一任务的端到端实测——从 UI 克隆到推荐管线,看清每一分钱花在哪。 摘要 同样预算写更多代码 → Codex 更完整不敷衍 → Codex,更倾向完成整个 PR 并补测试 数据分析与快速原型 → Codex,更便宜,开发循环更稳定 代码质量 → Codex,代码质量和规范性更好 前端 UI 还原度 → Claude Code,UI 保真度更高 大规模重构 → Claude Code,更擅长大规模架构调整 复杂任务与系统操作 → Claude Code,SWE-bench 77.2,OSWorld 61.4 首字响应速度 → Claude Code,Vertex TTFT ≈1.67s 超长上下文支持 → Claude Code,多云部署可达 1M 上下文 成本控制与调优 → Codex,可调推理深度,灵活控制速度和费用 端到端项目成本 → Codex,约 $2.50 vs Claude 约 $10.26 表现稳定性 → Codex,运行稳定,调试循环更可靠 文档写作 → Claude Code,文档生成质量更高 图表生成(XML/PlantUML) → Claude Code,结构化图表生成更擅长 端到端开发成本对比 Composio 在同一仓库、同一 MCP 环境下做了实测对比,汇总了不同场景的 Token 与成本差异: ...

October 16, 2025 · 4 min · 679 words · Miss-you

为什么所有产品最后都要长出社交?

为什么想聊这个 最近在听极客公园关于 Sora/Cameo 的对谈,听到 Lovart 创始人陈冕说的这句话「最大的 ToC 应用就是社交」。 这让我想起来,过去阿里一直想做社交——不论是支付宝、淘宝、闲鱼,都曾经尝试过很多次社交功能。 但现在,我不想讨论这句话对不对,只是想搞清楚:陈冕为什么这么想? 我最开始的疑问是:这句话是不是过时了?毕竟 2025 年大家的时间都在短视频、游戏、长视频,谁还在"社交"? 但查了一圈历史,我发现这个观点从 2013 年就开始有人说,而且说的人越来越多。 我查到的历史 Kik 创始人 Ted Livingston 在 Fast Company 采访中直白地说:“I think everyone is realizing that messaging is the killer app in mobile."(我觉得大家都在意识到,移动端的杀手级应用是消息)。后来很多文章都引用成"移动端最大/最强的 C 端应用就是消息/社交”。 当然 201x 世代,最绕不过的自然是微信。我印象里,说起张小龙做产品,大家都会说:“移动互联网的本质是社交”。 这在产品圈就是说:“做 C 端要么做社交本身,要么让产品自带社交分发”"‘社交 + X’比’X + 社交’更容易起量"——这让我想起来王者荣耀、和平精英,都在做营地。 现在回过头来看,这个说法在 2013–2016 年是对的;但到 2025 年,情况有点变了——社交还在,但已经不是唯一抢夺你我时间的东西了。 现在我会这么说:消息/社交是互联网时代的水和电,短视频/游戏/长视频/图文/短剧/小说是让你留下来的,电商和广告就是为了赚钱的。 这个解释完整吗?我刚才分的三层,说的是现在,但没解释"为什么"——为什么所有产品最后都要长出社交? 我换了个角度想: 换个角度 我想了想自己最常用的那几个 App——Instagram、TikTok、小红书——它们的共同点:都靠关注、点赞、评论、转发这些人和人的交流来运转。我猜这不是巧合。无论是工具、游戏还是内容平台,做到后面好像都要加社交功能。可能比起新功能或新算法,我们更在意"有人在"? 比如王者荣耀、火影忍者手游,游戏 AI 的衡量指标不是有多强,而是对局留存、有多像人。 我觉得「陈冕」说"最大的 To C 应用是社交",是因为他看懂了用户为什么要用产品。用户需求像个金字塔:最下面的工具是帮你提高效率,中间的内容是让你爽,而最上面的社交,是让你觉得自己重要,被看见。 【待补充】这里还缺一块:网络效应(你朋友都在用你就不想走)、转移成本(换个 App 你的好友、聊天记录、关注、粉丝都没了)、数据护城河。.. 我还没想清楚它们和"让你觉得自己重要"之间到底是什么关系。 ...

October 10, 2025 · 1 min · 77 words · Miss-you

AI经济学术语速查手册

整理了一批常用且"AI+经济学/计量+业务实践"里高频出现的术语,便于自己日常查询使用 主要有四种: 核心AI与经济概念 (Core AI & Economic Concepts):最宏观、最基本的术语。 商业与财务 (Business & Finance):企业运营和财务绩效相关的术语。 AI技术与实现 (AI Technology & Implementation):更具体的技术和工程术语。 研究方法与统计 (Research Methods & Statistics):经济学论文中用于因果推断的计量方法。 1. 核心AI与经济概念 (Core AI & Economic Concepts) GenAI (Generative AI): 生成式人工智能 解释:能够创造新内容(如文本、图像、代码)的AI系统。这是当前AI浪潮的核心。 LLM (Large Language Model): 大语言模型 解释:GenAI的一种,特指基于海量文本数据训练的、能理解和生成人类语言的模型,如GPT-4。 Agentic AI / Agentic Web: 智能体AI / 智能体网络 解释:能够设定目标、记忆、学习并自主执行复杂任务的下一代AI系统及其构成的生态。 AGI (Artificial General Intelligence): 通用人工智能 解释:拥有与人类同等或更高智慧,能解决任何智力任务的理论上的AI。是AI发展的远期目标。 GPT (General Purpose Technology): 通用目的技术 解释:指像蒸汽机、电力、互联网一样,能够对整个经济产生深远、广泛影响的基础性技术。AI被普遍视为一种新的GPT。 TFP (Total Factor Productivity): 全要素生产率 解释:衡量生产效率的宏观经济指标,指不能由资本和劳动等要素投入解释的产出增长部分,通常归因于技术进步。 CES/Cobb-Douglas (Constant Elasticity of Substitution / Cobb-Douglas Production Function): CES/科布-道格拉斯生产函数 解释:经济学中描述生产要素(如资本与劳动)如何组合产出的函数形式。CES函数允许不同的替代弹性(σ),而科布-道格拉斯是其特例(σ=1)。在AI经济研究中,用于建模技术、人力资本和AI之间的替代或互补关系,分析自动化对要素需求的影响。 σ (Elasticity of Substitution): 替代弹性 解释:衡量生产要素之间可替代程度的参数。σ>1表示要素易于替代(如AI可替代劳动),σ<1表示互补性强(AI需配合人类技能)。在AI经济学中,替代弹性决定了自动化技术对就业和工资的影响方向:高替代弹性意味着AI更可能替代工人,低替代弹性则促进协同增效。 SBTC/RBTC (Skill-Biased Technological Change / Routine-Biased Technological Change): 技能偏向/常规任务偏向技术变革 解释:SBTC指技术进步提高了对高技能劳动的需求,扩大技能溢价和工资不平等(1980-2000年代主导叙事)。RBTC进一步细化,指技术主要替代常规性任务(无论高低技能),导致中等技能岗位空心化(job polarization)。GenAI时代的研究关注其是否延续RBTC模式,或转向认知任务偏向(CBTC)。 Complementarity/Substitution (Complementarity/Substitution): 互补性/替代性 解释:描述技术与劳动之间的两种基本关系。互补性指技术提升劳动生产率(如AI辅助工具增强人类能力),替代性指技术直接取代人类完成任务(如自动化流水线)。GenAI同时展现两种特性:在创意、决策等领域互补,在数据处理、内容生成等领域替代,具体取决于任务特征和实施方式。 Network Effects (Network Effects): 网络效应 解释:产品或服务的价值随用户数量增加而提升的现象,也称需求侧规模经济。在AI平台经济中,更多用户生成更多数据,改进算法质量,吸引更多用户,形成正反馈循环(如社交媒体、在线市场)。网络效应是AI巨头形成市场支配地位的关键机制,也引发数据垄断和竞争政策关注。 Two-Sided Market (Two-Sided Market): 双边市场 解释:平台连接两类或多类相互依赖的用户群体(如司机-乘客、开发者-用户),并通过差异化定价协调供需的市场结构。AI平台(如应用商店、云服务市场)典型表现为双边市场,平台需平衡不同边的参与激励,常采用一边补贴(如免费开发者工具)另一边收费(如用户订阅)的策略。 Switching Costs (Switching Costs): 切换成本 解释:用户从一个产品/服务转向竞争对手时产生的成本,包括经济成本(迁移费用)、学习成本(适应新系统)和心理成本(失去积累数据)。在AI生态中,高切换成本(如专有数据格式、定制化模型、API依赖)形成用户锁定效应,降低市场竞争强度,是平台维持市场力量的重要工具。 Learning Curve (Learning Curve / Experience Curve): 学习曲线/经验曲线 解释:累计生产量增加导致单位成本下降的规律,源于生产经验积累、工艺优化和规模效应。在AI产业中,模型训练成本随数据和算力投入累积而下降,先发企业通过学习曲线效应建立成本优势。经验曲线是解释AI巨头竞争壁垒(如GPU采购规模、模型迭代速度)的重要框架。 O*NET (Occupational Information Network): 职业信息网络 解释:美国劳工部维护的职业任务与技能数据库,详细记录每个职业的工作活动、技能要求、工作背景等标准化信息。AI经济学研究中,ONET是构建"任务暴露度"指标的核心数据源:研究者将AI能力与ONET任务描述匹配,量化不同职业受AI影响的程度(如Felten、Eloundou等的暴露度指标)。 SOC/NAICS (Standard Occupational Classification / North American Industry Classification System): 标准职业分类/北美行业分类系统 解释:SOC是美国政府用于职业统计的标准分类体系(如Software Developers属15-1252),NAICS是行业分类体系(如软件出版业属511210)。AI经济研究依赖这些分类系统关联不同数据源(如劳动力统计、企业调查、O*NET任务数据),分析AI在职业-行业层面的影响差异和传导机制。 PIAAC (Programme for the International Assessment of Adult Competencies): 国际成人能力评估项目 解释:OECD组织的大规模国际调查,评估成人在读写、数理和问题解决等领域的实际技能水平(非学历),涵盖多国样本。在AI与技能研究中,PIAAC数据用于衡量实际认知能力分布、匹配任务需求与技能供给、分析技能错配(skill mismatch)问题,补充基于教育年限的人力资本测量。 Scaling Laws (Scaling Laws): 标度律/缩放定律 解释:描述AI模型性能(如损失函数、准确率)与模型规模(参数量)、训练数据量、计算资源(FLOPs)之间幂律关系的经验规律。OpenAI等机构研究表明,性能提升主要受最稀缺资源约束,且呈现可预测的规模回报。Scaling laws是理解AI能力边界、预测技术进步路径、评估经济可行性(如算力成本与性能收益权衡)的关键工具。 2. 商业与财务 (Business & Finance) P&L (Profit and Loss): 损益表 解释:展示公司在一定时期内收入、成本、费用和利润的财务报表。 EBIT (Earnings Before Interest and Taxes): 息税前利润 解释:衡量企业核心运营盈利能力的指标,排除了利息和税收这两个非运营因素的影响。 ROI (Return on Investment): 投资回报率 解释:衡量投资效益的财务比率,计算公式为 (投资收益 / 投资成本) * 100%。 KPI (Key Performance Indicator): 关键绩效指标 解释:用于量化和衡量业务目标达成度的具体指标,例如网站的"日活跃用户数"或销售的"月度转化率"。 SMBs (Small and Medium-sized Businesses): 中小型企业 解释:通常指员工人数和年收入在特定规模以下的企业,是讨论技术普及和经济影响时的重要分析对象。 BPO (Business Process Outsourcing): 业务流程外包 解释:企业将客户服务、人力资源等非核心业务流程交由第三方公司处理的商业模式。AI正在深刻改变这一行业。 SaaS (Software as a Service): 软件即服务 解释:一种通过互联网订阅使用的软件模式,用户无需本地安装。多数AI工具都采用此模式。 CRM (Customer Relationship Management): 客户关系管理 解释:用于管理公司与现有及潜在客户互动的系统或软件(如Salesforce)。AI正被广泛集成进CRM以提升销售和客服效率。 SLA (Service Level Agreement): 服务级别协议 解释:服务提供商(如云服务、BPO公司)对其服务质量、可用性、响应时间等做出的量化承诺。 CIO / COO: 首席信息官 / 首席运营官 解释:公司高层管理者,CIO负责信息技术战略,COO负责日常运营。他们在推动AI落地中扮演关键角色。 Prosumers (Producer + Consumer): 生产型消费者 解释:既消费产品,又深度参与产品创造、改进或推广的用户。在AI领域,指那些能熟练使用AI工具并创造价值的早期采用者。 ESG (Environmental, Social, and Governance): 环境、社会和治理 解释:评估企业可持续性和社会影响的一套标准。有时也指代提供此类评级的公司。 TCO (Total Cost of Ownership): 全生命周期成本 解释:衡量IT系统或产品从采购、部署到运维、退役的全周期总成本,综合计算资本支出(CapEx)与运营支出(OpEx),帮助企业进行更全面的成本效益分析和采购决策。 CAC/LTV (Customer Acquisition Cost/Lifetime Value): 获客成本/用户终身价值 解释:CAC指获取单个新客户所需的平均营销和销售成本;LTV指单个客户在整个生命周期内为企业带来的总收益。LTV/CAC比值是衡量商业模式健康度的关键指标,通常该比值应大于3。 ARR/MRR (Annual/Monthly Recurring Revenue): 年度/月度经常性收入 解释:SaaS和订阅制企业的核心财务指标,ARR是年度可预期的重复性收入,MRR是月度重复性收入。这些指标帮助企业预测现金流、评估业务增长稳定性,是投资者评估订阅制企业价值的重要依据。 ARPU (Average Revenue Per User): 每用户平均收入 解释:特定时期内总收入除以活跃用户数,是衡量用户变现能力的关键指标。ARPU的提升可通过增加用户付费率、提高定价或促进用户升级到高价值套餐来实现,常用于SaaS、电信和互联网行业。 Churn (Churn Rate): 流失率 解释:特定时期内停止使用产品或取消订阅的客户比例,是订阅制和ToB业务的健康度核心指标。包括客户流失率(Customer Churn)和收入流失率(Revenue Churn),低流失率意味着更高的客户留存和可预测收入。 Unit Economics: 单位经济模型 解释:通过分析单个客户或单次交易的收入与成本,评估商业模式在微观层面的盈利性。核心指标包括单客户获取成本、单客户收益、边际贡献等,是判断业务是否可规模化扩张的基础。 TAM/SAM/SOM (Total/Serviceable/Obtainable Market): 总市场/可服务市场/可获取市场 解释:市场规模的三层分析框架:TAM是理论上的总市场规模;SAM是产品实际能服务的细分市场;SOM是短期内实际可获取的市场份额。这一框架帮助企业制定现实的市场策略和增长目标。 PMF (Product-Market Fit): 产品-市场匹配 解释:产品满足强烈市场需求的状态,是创业公司的关键里程碑。达成PMF的标志包括:用户自发推荐、高留存率、强烈的产品需求。Marc Andreessen认为这是创业成功的首要条件。 On-Prem (On-Premises): 本地化部署 解释:软件或系统部署在客户自有的服务器和基础设施上,而非云端。与SaaS模式相对,On-Prem提供更高的数据控制权和安全性,但需要客户自行承担硬件、运维和升级成本,常见于对数据主权有严格要求的企业和行业。 PaaS (Platform as a Service): 平台即服务 解释:云计算服务模型之一,提供包括操作系统、中间件、数据库、开发工具在内的完整应用开发和部署平台。开发者无需管理底层基础设施,专注于应用程序开发,典型代表包括Heroku、Google App Engine。 IaaS (Infrastructure as a Service): 基础设施即服务 解释:云计算的基础层服务模型,提供虚拟化的计算资源(服务器、存储、网络),用户可按需租用并自行配置操作系统和应用。相比传统IT采购,IaaS提供更高的灵活性和成本效益,代表厂商包括AWS EC2、Azure、阿里云。 SLO (Service Level Objectives): 服务等级目标 解释:服务可靠性的量化目标,定义系统在特定时间段内应达到的性能指标(如可用性99.9%、响应时间<200ms)。SLO是SLA(服务等级协议)的基础,帮助团队在可靠性与开发速度之间找到平衡,是SRE文化的核心实践。 3. AI技术与实现 (AI Technology & Implementation) RAG (Retrieval-Augmented Generation): 检索增强生成 解释:一种让LLM在生成回答前,先从外部知识库(如公司内部文档)检索相关信息的技术,以提高回答的准确性和时效性。 Fine-tuning: 微调 解释:在通用预训练模型的基础上,使用特定领域的数据进行二次训练,使其更适应特定任务(如法律合同分析、医疗诊断问答)。 HITL (Human-in-the-loop): 人机协同 / 人在回路 解释:一种AI系统设计模式,在关键决策点(如医疗诊断、内容审核)保留人工审核、确认或干预的环节,以确保安全和质量。 UI / UX (User Interface / User Experience): 用户界面 / 用户体验 解释:UI指用户与软件交互的视觉界面;UX指用户在使用产品过程中的整体感受。好的UI/UX对AI产品的成功至关重要。 API (Application Programming Interface): 应用程序编程接口 解释:允许不同软件程序相互通信和交换数据的"插座"。企业通过API将AI功能(如OpenAI的API)集成到自己的应用中。 NANDA (Networked Agents And Decentralized Architecture): 网络化智能体与去中心化架构 解释:由MIT提出的一个支持不同AI智能体之间互操作和协作的基础设施框架。 MCP / A2A (Model Context Protocol / Agent-to-Agent): 模型上下文协议 / 智能体到智能体协议 解释:与NANDA相关的技术协议,旨在为AI智能体之间的交流和数据交换建立标准。 SFT (Supervised Fine-Tuning): 监督微调 解释:在预训练大模型的基础上,使用带标注的任务数据进行进一步训练,是模型对齐的第一步。通过监督学习让模型学会遵循指令、回答问题等特定任务,是从基础模型到实用模型的关键环节。 RLHF/RLAIF (Reinforcement Learning from Human/AI Feedback): 基于人类/AI反馈的强化学习 解释:通过强化学习让模型学习人类偏好的对齐技术。RLHF使用人类标注员的偏好反馈,RLAIF则使用AI系统的反馈,两者都通过奖励模型引导模型生成更符合人类价值观和期望的输出,是ChatGPT等产品的核心技术。 DPO (Direct Preference Optimization): 直接偏好优化 解释:一种无需强化学习即可进行偏好对齐的优化方法。相比RLHF,DPO直接从偏好数据中学习,省去了训练奖励模型和复杂的RL训练流程,实现更简单、训练更稳定,成本更低。 LoRA (Low-Rank Adaptation): 低秩适配 解释:一种参数高效的微调技术,通过在模型层中插入低秩矩阵,只训练少量新增参数(通常<1%)即可适配下游任务。大幅降低微调的计算和存储成本,使得在消费级硬件上微调大模型成为可能。 Token: 词元 解释:LLM处理文本的基本单位,通常一个token对应一个词、词的一部分或标点符号(中文约1.5-2字/token)。是API计费、上下文长度限制、成本估算的基础度量单位。 Context Window: 上下文窗口 解释:模型在一次推理中能够读取和处理的最大token数量限制。例如32K、128K上下文窗口,决定了模型能"记住"多长的对话历史或文档内容,是衡量模型能力的重要指标。 Hallucination: 幻觉 解释:LLM生成看似合理但实际虚假或无根据内容的现象。模型可能编造事实、引用不存在的文献、虚构数据等,是当前LLM应用中需要重点防范的风险,需通过RAG、Grounding等技术缓解。 Inference: 推理 解释:模型部署后实际调用生成结果的过程,对应训练(Training)概念。推理性能(延迟、吞吐)和成本是生产环境的核心关注点,涉及模型压缩、硬件加速、批处理等优化技术。 PPL (Perplexity): 困惑度 解释:衡量语言模型预测质量的常用指标,数值越低表示模型对文本的预测越准确。在技术层面,困惑度是模型在测试数据上交叉熵的指数,常用于评估预训练和微调效果。 Pass@k/EM (Pass@k/Exact Match): 通过率@k/精确匹配 解释:代码生成和问答任务的评测指标。Pass@k指生成k个候选答案中至少有一个通过测试用例的比例;EM指生成答案与标准答案完全一致的比例,是评估模型准确性的严格标准。 Embedding: 向量嵌入 解释:将文本、图像等数据转换为固定长度的数值向量表示,使得语义相似的内容在向量空间中距离接近。是语义检索、相似度匹配、RAG系统的基础技术,通过专门的Embedding模型生成。 Vector DB/ANN (Vector Database/Approximate Nearest Neighbor): 向量数据库/近似最近邻 解释:专门用于存储和检索高维向量的数据库系统及其核心算法。ANN算法通过牺牲少量精度换取检索速度的大幅提升,使得在百万、亿级向量中毫秒级找到相似向量成为可能,是RAG系统的基础设施。 Cosine Sim. (Cosine Similarity): 余弦相似度 解释:衡量两个向量方向相似性的度量方法,取值范围-1到1,值越接近1表示越相似。在向量检索中,常用余弦相似度评估文本语义相似性,不受向量长度影响,只关注方向。 HNSW/FAISS (Hierarchical Navigable Small World/Facebook AI Similarity Search): HNSW图/FAISS库 解释:两种主流的ANN索引实现技术。HNSW是基于图的多层导航结构,查询速度快;FAISS是Meta开源的向量检索库,支持多种索引算法和GPU加速,广泛应用于生产环境的向量检索系统。 Grounding: 事实锚定 解释:将模型生成内容与可靠外部来源(如权威文档、数据库、搜索结果)关联的技术,确保输出有据可查。通过引用来源、展示证据链等方式提高答案可信度,是减少幻觉、增强可解释性的重要手段。 Tool Use/Function Calling: 工具调用/函数调用 解释:让LLM能够调用外部工具、API或执行函数的能力。模型可以识别何时需要使用工具、生成正确的调用参数,并整合返回结果,使LLM从纯文本生成扩展到完成实际任务(如查询数据库、调用计算器、操作系统等)。 CoT (Chain-of-Thought): 思维链 解释:一种提示技术,引导模型在给出最终答案前,先生成中间推理步骤。通过"让我们一步步思考"等提示,显著提升模型在数学、逻辑等复杂推理任务上的表现,是学术界和工程实践中广泛应用的Prompt Engineering方法。 PII (Personally Identifiable Information): 可识别个人信息 解释:能够直接或间接识别特定个人身份的信息,如姓名、身份证号、手机号、邮箱等。在AI应用中需严格保护PII,遵守GDPR、个人信息保护法等法规,通过脱敏、加密、访问控制等手段确保数据合规。 SDK (Software Development Kit): 软件开发工具包 解释:为开发者提供的一套集成工具、库、文档和示例代码的软件包,简化应用开发流程。AI厂商通常提供SDK封装API调用,处理认证、重试、流式传输等底层细节,让开发者专注业务逻辑。 ETL/ELT (Extract-Transform-Load/Extract-Load-Transform): 抽取-转换-加载/抽取-加载-转换 解释:数据管道的两种架构模式。ETL先转换再加载,适合传统数仓;ELT先加载原始数据再转换,利用现代数仓的计算能力,在AI数据准备中常用于构建训练数据、知识库等场景。 4. 研究方法与统计 (Research Methods & Statistics) DiD (Difference-in-Differences): 双重差分法 解释:一种经典的准实验方法,通过比较一个受政策影响的"处理组"和一个未受影响的"参照组"在政策前后的变化差异,来估计政策的因果效应。 Event Study: 事件研究法 解释:常被视为DiD的动态版本,通过观察某个事件(如AI发布、政策实施)发生前后,目标变量(如股价、生产率)的时间序列变化来评估事件影响。 IV (Instrumental Variables): 工具变量法 解释:当怀疑自变量(X)和因变量(Y)之间存在内生性问题(如反向因果、遗漏变量)时,引入一个"工具变量"(Z),Z只通过X影响Y,而不直接影响Y,从而分离出X对Y的纯粹因果效应。 RDD (Regression Discontinuity Design): 回归断点设计 解释:一种利用规则或阈值(如分数线、年龄限制)来估计因果效应的方法。它比较阈值两侧非常接近的个体,认为他们的差异主要是由该规则造成的。 OLS (Ordinary Least Squares): 普通最小二乘法 解释:最基础和常用的线性回归技术,用于估计变量间线性关系的系数。 Fixed Effects (FE): 固定效应 解释:在面板数据分析中,用于控制那些不随时间变化的、难以观测的个体异质性(如公司文化、地区特征)的一种统计方法。 Natural Experiment: 自然实验 解释:指现实世界中发生的、其影响类似于随机实验的事件(如政策突变、自然灾害),为研究者提供了识别因果关系的机会。 Exclusion Restriction: 排除性限制 解释:工具变量法成立的核心假设,即工具变量除了通过影响内生自变量外,不能有任何其他途径影响因变量。 RCT (Randomized Controlled Trial): 随机对照试验 解释:因果推断的黄金标准方法,通过随机分配受试者到处理组和对照组,确保两组在统计上可比较,从而消除选择偏差,准确识别因果效应。广泛应用于医学、政策评估和产品实验。 PSM (Propensity Score Matching): 倾向得分匹配 解释:一种准实验方法,通过估计个体接受处理的概率(倾向得分),将处理组和对照组中倾向得分相似的个体进行匹配,从而模拟随机化实验,减少选择偏差,用于观测数据的因果推断。 IPW (Inverse Probability Weighting): 逆概率加权 解释:一种通过加权调整样本分布来纠正选择偏差的方法。对每个观测赋予权重(接受处理概率的倒数),使加权后的样本分布接近随机化实验的分布,常与倾向得分结合使用进行因果推断。 TWFE (Two-Way Fixed Effects): 双向固定效应 解释:面板数据分析中的常用回归模型,同时控制个体固定效应和时间固定效应,是双重差分法(DiD)的标准实现方式。能够控制不随时间变化的个体特征和影响所有个体的时间趋势。 Staggered Adoption: 交错采用 解释:政策或干预措施在不同时间点分批次实施的情境,不同个体或地区在不同时期接受处理。这种设计下的双重差分分析需要特别注意处理时间异质性和动态效应,传统TWFE方法可能产生偏误。 ATT/ATE/ATC (Average Treatment effect on the Treated/Effect/on the Controls): 处理组/总体/对照组平均效应 解释:因果推断中三种不同的平均处理效应定义。ATT衡量实际接受处理者的平均效应,ATE衡量总体的平均效应,ATC衡量未接受处理者假设接受处理的平均效应。不同估计量适用于不同的政策问题。 LATE (Local Average Treatment Effect): 局部平均处理效应 解释:工具变量方法估计的因果效应,特指工具变量影响下"合规者"(因工具变量改变而改变处理状态的子群体)的平均处理效应。LATE通常小于总体效应,其外推性取决于合规者的代表性。 ITT/TOT/CACE (Intention-To-Treat/Treatment-on-the-Treated/Complier Average Causal Effect): 意向治疗/实际接受处理/合规者平均因果效应 解释:处理不完全合规情境下的三种效应估计。ITT基于最初分配估计效应(保留随机化),TOT估计实际接受处理者的效应,CACE等同于LATE。ITT提供保守但稳健的下界估计。 SUTVA (Stable Unit Treatment Value Assumption): 稳定单元处理值假设 解释:因果推断的核心假设之一,要求个体的潜在结果不受其他个体处理状态的影响(无溢出效应),且处理只有一种形式(无隐藏变异)。违反SUTVA会导致因果效应估计偏误,需要考虑网络效应或干扰。 Parallel Trends: 平行趋势假设 解释:双重差分法的核心识别假设,要求在没有政策干预的反事实情境下,处理组和对照组的结果变量趋势应当平行。通常通过事前趋势检验(pre-trend test)和事件研究图来验证该假设的合理性。 DAG (Directed Acyclic Graph): 有向无环图 解释:因果推断中用于表示变量间因果关系的图形工具,节点代表变量,有向边代表因果关系,“无环"确保无循环因果。DAG帮助研究者识别混淆变量、中介变量和对撞变量,指导控制变量的选择。 Backdoor/Frontdoor (Backdoor/Frontdoor Criteria): 后门/前门条件 解释:基于DAG的因果识别准则。后门准则要求控制变量集合阻断所有从处理到结果的"后门路径”(非因果关联路径),前门准则通过中介变量识别因果效应。这两个准则为控制混淆提供了形式化规则。 Weak IV: 弱工具变量 解释:工具变量与内生解释变量相关性较弱的情况,通常用第一阶段回归的F统计量诊断(经验阈值约为10)。弱工具变量会导致估计量偏误、置信区间失效和推断不稳健,需要使用专门的弱工具变量稳健推断方法。 Overidentification Test: 过度识别检验 解释:当工具变量数量多于内生变量时,可以检验工具变量的有效性假设(外生性)。常用的检验包括Sargan检验和Hansen J检验。拒绝原假设表明至少部分工具变量可能不满足外生性条件。 Synthetic Control: 合成控制法 解释:一种准实验方法,用于单个或少数处理单元的政策评估。通过对照组单元的加权组合构造一个"合成对照组",使其在干预前的特征和趋势与处理组尽可能匹配,用合成对照组的干预后结果作为反事实基准估计政策效应。 DML (Double/Debiased Machine Learning): 双重/去偏机器学习 解释:结合机器学习和因果推断的方法,在高维协变量情境下估计因果效应。通过样本分割和交叉拟合,使用机器学习预测干扰变量,同时保证目标因果参数估计的渐近正态性和有效推断,避免正则化偏差。 HTE (Heterogeneous Treatment Effects): 异质性处理效应 解释:不同子群体或个体对同一处理的效应存在差异。识别和估计HTE对于精准政策制定和个性化决策至关重要。常用方法包括子组分析、交互项回归、因果森林和元学习器等机器学习方法。 Clustered SEs (Cluster-Robust SEs): 聚类稳健标准误 解释:当数据存在聚类结构(如学生嵌套于学校、个体重复观测)且组内观测相关时,需要使用聚类稳健标准误进行推断。该方法允许组内任意相关性,但要求聚类数量足够大(通常建议至少30个聚类)。 Newey–West (Newey–West): NW稳健标准误 解释:一种异方差和自相关一致性(HAC)标准误估计方法,用于时间序列数据中存在自相关和异方差的情况。通过选择适当的滞后阶数(带宽),对协方差矩阵进行加权调整,使推断在违反经典假设时仍然有效。 Bootstrap: 自助法 解释:一种基于重抽样的统计推断方法,通过从原始样本中有放回地重复抽样,生成大量"自助样本",从而估计统计量的分布和不确定性。适用于难以得到解析解的复杂估计量,无需依赖渐近分布假设。 Multiple Testing/FDR (False Discovery Rate): 多重检验/错误发现率 解释:当同时进行多个假设检验时,需要调整显著性水平以控制假阳性率膨胀。FDR控制被拒绝原假设中错误拒绝的期望比例,相比传统的族错误率(FWER)控制方法(如Bonferroni校正)更具检验功效。 Bandwidth (RDD): 带宽选择 解释:断点回归设计中的关键调参,决定使用断点附近多大范围内的观测进行局部估计。带宽越小偏差越小但方差越大,带宽越大则相反。常用数据驱动的方法(如IK、CCT)进行最优带宽选择,平衡偏差-方差权衡。 McCrary Test: McCrary密度检验 解释:断点回归设计的有效性检验,检查分配变量(running variable)在断点处是否存在密度跳跃。如果个体可以精确操纵分配变量跨越断点,密度会出现不连续,违反断点回归的随机化假设,导致估计偏误。 A/B Test: A/B测试 解释:在线产品和服务中最常用的随机对照实验方法,通过随机将用户分配到不同版本(A版本和B版本),比较关键指标(如转化率、留存率)的差异,快速评估产品改进或策略调整的因果效应。 MDE (Minimum Detectable Effect): 最小可检出效应 解释:在给定样本量、显著性水平和检验功效下,实验能够可靠检测到的最小效应值。MDE是样本量规划的核心指标,MDE越小需要的样本量越大。在实验设计阶段评估MDE是否满足业务需求至关重要。 Power (Statistical Power): 检验功效 解释:当原假设为假时正确拒绝原假设的概率,记为1-β(β为第二类错误概率)。高功效意味着实验有足够能力发现真实存在的效应。功效分析用于实验设计阶段确定所需样本量,或事后评估未显著结果的可信度。 CTR/CR (Click-Through Rate/Conversion Rate): 点击率/转化率 解释:在线产品和数字营销中的核心业务指标。CTR衡量用户点击率(点击数/曝光数),CR衡量转化率(转化数/访问数)。这些比率型指标是A/B测试的常见目标变量,需注意比率估计的统计性质(如Delta方法)。 Uplift Modeling: 提升模型 解释:一类直接建模处理增量效应的机器学习方法,预测个体接受处理相对于不接受处理的结果差异(个体处理效应)。常用于精准营销和个性化推荐,识别对干预最敏感的用户,优化资源配置和投放策略。 Guardrail Metrics: 护栏指标 解释:在线实验中用于确保产品稳定性、用户体验和生态健康的监控指标。虽然不是实验的主要优化目标,但必须在可接受范围内(如页面加载时间、错误率、用户投诉)。护栏指标异常会触发实验暂停或回滚。 p50/p95/p99: 分位延迟 解释:用于描述系统性能和用户体验的分位数指标,分别表示50%、95%、99%的请求延迟低于该值。相比平均值,分位数对极端值不敏感,能更好地刻画用户实际体验。p95和p99常用于服务等级目标(SLO)设定。 Canary: 金丝雀发布 解释:一种渐进式发布策略,先将新版本部署到小比例流量(如5%),密切监控关键指标和护栏指标,确认无异常后再逐步扩大流量。这种方式能够在早期发现问题并快速回滚,降低发布风险,是工程实践中的风险控制手段。 MLE (Maximum Likelihood Estimation): 极大似然估计 解释:一种参数估计的基本方法,通过最大化观测数据在参数模型下的似然函数来估计参数值。MLE具有良好的大样本性质(一致性、渐近正态性、渐近有效性),是统计推断和计量经济学中最常用的估计方法之一。 Logit/Probit: 二项响应模型 解释:用于二元因变量(0/1)的回归模型。Logit模型假设误差项服从逻辑分布,Probit模型假设服从正态分布。两者通常给出相似结果,Logit模型的系数解释为对数几率比,计算更简便,在实证研究中更为常用。 RE (Random Effects): 随机效应 解释:面板数据模型的一种设定,假设个体特定效应与解释变量不相关,将个体效应视为随机误差的一部分。相比固定效应,随机效应模型更有效率且能估计时间不变变量的系数,但需要更强的外生性假设。Hausman检验用于选择固定或随机效应。 Heteroskedasticity: 异方差 解释:误差项方差随解释变量变化而变化,违反了经典线性回归的同方差假设。异方差会导致OLS标准误估计不一致,使推断失效(虽然系数估计仍然无偏)。常用稳健标准误(White标准误)或加权最小二乘法(WLS)处理异方差。 Normalization/Standardization: 归一化/标准化 解释:特征预处理的常用方法。归一化通常指将数据缩放到[0,1]区间(如Min-Max缩放),标准化指将数据转换为均值为0、标准差为1(Z-score标准化)。这些方法消除量纲影响,改善优化算法收敛性,在机器学习和因果推断中广泛应用。 Winsorize: 温莎化 解释:一种处理极端值的稳健方法,将分布两端超过特定分位数(如1%和99%)的值替换为该分位数的值,而不是直接删除。温莎化保留了样本量,减少极端值对估计的影响,在金融和经济数据分析中特别常用。 Z-score: Z分数 解释:标准化后的数据值,表示原始值距离均值有多少个标准差。Z-score = (X - μ) / σ。Z分数用于跨变量比较、异常值检测(通常|Z|>3视为异常)和标准化处理。在正态分布假设下,Z分数有明确的概率解释。 GLS (Generalized Least Squares): 广义最小二乘 解释:当误差项存在异方差或自相关时,OLS不再是最有效的估计量。GLS通过对观测值进行加权变换,使变换后的误差满足经典假设,从而获得更有效的估计。GLS需要已知误差的协方差结构,实践中常用可行GLS(FGLS)。

October 6, 2025 · 4 min · 736 words · Miss-you
GenAI 鸿沟:95% vs 5%的分界线

GenAI 工具选购和决策指南

MIT 追踪 300+ 项目揭示:95% GenAI 项目失败的根源与 5% 成功的关键。

October 3, 2025 · 4 min · 730 words · yousa