AI软件工程范式革命的思考
腾讯云公众号的王老师这篇文章写的太好了,很有前瞻性,忍不住存档一下,之后可以不断评鉴其中的精髓。深度好文就是让人读这篇文章的时候边读边划线,不断将金句截图分享给好友。此外读完感觉自己得去补充一下控制论和系统工程的知识了。
> 作者:王鹏程
> 原文链接:https://mp.weixin.qq.com/s/8jREMnaavGcoaLklEBPPSQ
> 字数:20545 | 阅读时间:41 分钟
---
关注腾讯云开发者,一手技术干货提前解锁👇
这篇文章想讨论一件事:软件工程过去五十年其实没真正"工程化"过。它一直停留在手工艺阶段,被各种方法论包装成工程,但骨子里还是靠人脑堆。这一点直到大模型出现才开始有可能改变。我会沿着这条思路往下推:先回看其他工程门类是怎么"工程化"成功的,再看软件这条路为什么走不通;然后讨论大模型把哪一块缺口补上了,又带来了什么新的麻烦;接着是当下业界普遍在走的弯路,以及我认为正确的路径长什么样;最后落到落地路线、组织形态,以及这件事真正最难的那道坎在哪里。整篇文章是一次完整推演,不是工具评测,不是预测,更像是把很多年里零散的想法串成一条逻辑线。
01
为什么说软件工程是过去五十年最不彻底的工程
1.1 经典工程的胜利路径,其实是同一条
机械、化工、电力、自动化、通讯,这些工程门类长得天差地别,但翻它们的工程史会发现一个共同点:它们都靠"消耗能源把人脑参与的低阶认知回路固化成物理装置"成功的。
蒸汽机的离心调速器、化工厂的恒温器和压力调节器、电网的调度装置、流水线上的 PLC——本质上都是同一件事:让原本要靠人盯着、调整、判断的事情,由一台烧煤或者通电的设备自己完成。人从主回路里被剥离出来,退到设计、维护、维修这些位置。
这就是控制论最早的工程实现路径。它的核心结果不是"省了几个工人",而是不确定性被大规模消除——同样的输入、同样的能源,输出是稳定可预期的。
| 工程门类 | 把哪种"低阶智能"固化成了能源装置 | 人退到哪里 |
| --- | --- | --- |
| 蒸汽机 | 离心调速器(机械负反馈) | 设计与维护 |
| 化工 | 恒温器、压力调节器 | 工艺设计 |
| 电力 | 电网调度系统 | 调度仲裁 |
| 自动化 | PLC、流水线控制器 | 产线规划 |
经典工程的"成功",秘密不在某项技术,而在这套"能源换低阶智能"的范式本身。
1.2 软件工程恰好卡在这条路走不通的地方
把这套范式套到软件上就会发现卡壳了。软件开发要做的事情是抽象、分解、推理、创造——这些都是高阶认知,没法像调速器那样固化成一个物理回路。代码是用人的思维一行一行编出来的,编译器只是忠实地翻译,从不"理解"需求。
所以软件工程一直没法做到"投入能源,另一头流出可工作的软件"这件事。它必须靠大量高密度的人力。而人脑这个认知主体有几个绕不过去的毛病:会误解、会遗漏、不一致。需求从用户口里说出来,传到产品经理,再传到开发,每一道都失真;状态空间稍微复杂一点,单个人的注意力就盖不全;同样一件事,张三和李四的处理方式可能完全不同。
软件危机的本质就是这件事——不是哪个技术不行,而是这个工程门类的认知主体始终是人脑,而人脑在这套生产关系里没法被替换。
1.3 历代方法论其实都在做同一件事:管理人,而不是替代人
把过去五十年的软件工程方法论摊开看,结构化编程、面向对象、敏捷、Scrum、DevOps——它们解决的是同一个问题,而且解决方式是同一种:优化堆人力的方式,但没改变"必须靠人力堆"这个事实。
敏捷拥抱变化,DevOps 缩短反馈环,Scrum 把大目标切成小迭代,本质都是承认"人是不可替代的不确定性来源",然后想办法让这种不确定性更可管理。
这就是为什么我会说软件工程是过去五十年里最不彻底的工程——所有兄弟门类都完成了"能源替代低阶智能"这个动作,唯独软件没有。它在工程的形而上学层面是个残缺品。
1.4 但过去五十年并不是白费的
说这话有个必须澄清的地方:"软件工程是失败的"不等于"过去五十年的所有努力都白搭了"。
恰恰相反,这五十年沉淀下来一整套东西——编译器、类型系统、单元测试、CI/CD、灰度发布、契约编程、形式化方法、静态分析、覆盖率、监控、链路追踪。这套东西虽然没让软件工程"工程化"成功,但它们留下了一个非常关键的资产:一整套自动化验证基础设施。
这件事到了第六章会再出现,因为它正好是新范式的地基。某种意义上,过去五十年的"失败"是给下一个时代准备弹药——只是当时谁也不知道。
02
大模型补上了那个缺口,但带来了新麻烦
2.1 大模型这件事的工程史定位
大语言模型不是 AGI,但它做到了一件经典工程从来没做到的事:输入电力(最终是算力),输出能理解需求、生成代码、做逻辑推理的高阶认知产物。
把这件事放到工程史的坐标里看就很清楚了:
```
经典工程:能源 → 低阶智能(机械调节、自动控制)大模型: 能源 → 高阶智能(理解、推理、生成、决策)
```
工程史上第一次有了"认知引擎"这种东西。我说"引擎"不是修辞——它和蒸汽机的工程史地位是平行的。蒸汽机让"做功"这件事第一次能源化,大模型让"认知"这件事第一次能源化。
如果上面的判断成立,那软件工程"真正降临"的时刻不是 SCRUM 流行的时候,不是 DevOps 普及的时候,也不是云原生铺开的时候——是大模型让"能源换高阶智能"成为可能的时候。在此之前所有的"软件工程",严格说都是软件作坊的优化版。
2.2 但这只是入场券,不是终局
大模型本身带着一堆高阶的不确定性。幻觉——输出看着合理,悄悄就错了;漂移——同样的输入,今天和明天给出不一样的结果;不可解释——你没法看进它的决策过程。
这意味着大模型并没有消除不确定性,只是把"人的不确定性"换成了"模型的不确定性"。如果只看到 AI 用能源产出认知能力,却不管控这一层新的不确定性来源,软件工程的下一个时代就会从"人的危机"直接转成"模型危机"。
所以光有认知引擎不够。真正需要的是一整套新的工程原则——人的责任不再是亲手消除每个微小的偏差,而是设计一个能自我纠偏的系统,并处理系统自己纠不回来的剩余偏差。
这件事在控制论里有个对应概念。冯·福斯特在 1970 年代提出过二阶控制论,简单说一阶控制论是"观察并控制被控对象",二阶控制论是"观察并控制'观察并控制'这件事本身"。投到 AI 软件工程上:
```
经典软件工程:人在写代码AI 软件工程:人在设计"AI 写代码的系统"
```
这是身份的转变,不只是工具的转变。如果未来真有一本叫"AI 软件工程"的教科书,第一章应该写的就是这件事——它本质上是二阶控制论第一次大规模在认知工程领域工业化。
03
人在自动化时代不会消失,只会换地方
3.1 一个反直觉但反复被验证的现象
工程史上有个现象,我每次想起来都觉得意味深长:自动化越彻底,工业相关人口反而越多。
| 时代 | 主导工程范式 | 直接生产工人 | 工业相关人口(含设计/研发/运维/调优) |
| --- | --- | --- | --- |
| 1850 年代蒸汽机普及 | 机械化 | 占比约 30% | 制造业整体爆炸式增长 |
| 1950 年代流水线加 PLC | 自动化 | 持续下降 | 工程师、设计师、工艺员暴增 |
| 2000 年代工业机器人 | 数字化 | 进一步减少 | 自动化工程师、产线运维成新岗位 |
| 现在 | 智能化 | 仍在减少 | 仍在增加 |
一百五十年了,"自动化吃掉一类岗位、又冒出更多新岗位"这件事从来没失效过。
3.2 为什么会这样
经济学课本会告诉你这是"需求扩张"。但更深的解释,我觉得是这个:每一次系统能力扩张,都会暴露出新的边界,而边界就是新的"偏差地带",需要新一波人去守在那里。
第一波工程化把肌肉劳动固化进系统,人退到机械边界监督位;第二波把低阶决策固化进系统,人退到控制边界监督位;现在第三波把高阶认知固化进系统,人会退到认知边界监督位。
每一次"退守"都不是失业,而是迁移。因为边界本身在扩大,所以需要守的人反而更多了。
3.3 人的统一职能其实只有一个:偏差拉回
把这条铁律抽象出来,会得到一个我觉得相当稳定的结论:在所有工程门类里,人类的统一职能是处理系统暂时还无法处理的偏差。
| 工程门类 | 系统主体 | 人在做什么 |
| --- | --- | --- |
| 机械、化工 | 物理回路 | 拉回物理偏差(设备故障、原料波动) |
| 电力 | 电网调度 | 拉回负载偏差(突发用电、机组故障) |
| 航空航天 | 自动驾驶 | 拉回飞控边缘场景 |
| 核电 | 反应堆 | 拉回安全边界偏差 |
| AI 软件工程 | 认知回路 | 拉回 AI 自己纠不回的认知偏差 |
工程化的进程,本质上就是把人从主回路移到边界监督位的过程。人始终守在系统能力的边界外侧,专门处理系统暂时还没办法处理的偏差。
再往上抽一层,可以总结成一条规律:工程化扩张的本质是把"原本无法工程化的事"持续变成"可工程化的事",人永远站在工程化边界的外侧,边界往外推,人也跟着往外迁移。这给了 AI 时代一个相对乐观的工程哲学——人不会被淘汰,因为新的"不可形式化边界"会一直冒出来。
但这个乐观底下藏着一个挺严峻的事实:能在这种边界上工作的人会越来越少,因为形式化吃掉的都是低阶认知,剩下的都是越来越高阶的部分。
3.4 AI 工程的偏差拉回是一次本质升级
经典工程的偏差拉回有几个隐含前提:偏差类型是可枚举的(机械故障的种类有限)、偏差信号是可观测的(仪表会报警)、拉回手段是 SOP 化的(按操作规程办)。
到了 AI 工程,这三条几乎全都不成立。
| 维度 | 经典工程偏差 | AI 工程偏差 |
| --- | --- | --- |
| 类型 | 可枚举 | 不可枚举(幻觉、漂移、长尾、对抗) |
| 信号 | 可观测 | 隐蔽(输出看起来合理但悄悄错了) |
| 手段 | SOP 化 | 需要专家级判断 |
| 时间窗口 | 拉回前可降级运行 | 错误已经扩散到下游产物 |
这意味着 AI 工程里的"偏差拉回者",专业门槛远高于传统运维岗。你需要一个人同时具备业务理解、AI 能力评估、形式化验证、反例构造这几样东西。这种人本来就稀少,未来只会更稀少。
3.5 软件研发人力会怎么流动
按上面这条铁律,软件直接生产人力会大幅减少,但研发相关总人口未必。释放出来的人会流向四个方向:
* 真正高价值的产品定义岗:用户洞察 + 商业判断 + 跨域整合,这一类极度稀缺,少数人能进入。
* 被稀释的伪定义岗:AI 让人人都能写需求,定义价值这件事的门槛被拉低,多数人会落在这里,竞争反而更激烈。
* AI 产线建设、维护、调优岗:这是真正的新增主力岗位,也是这一波最关键的新主线,但门槛很高。
* 被工程化彻底淘汰、外溢到其他行业的人:这一部分被讨论得很少,但必然存在。
这里有个细节值得提醒一下:软件世界的"产品定义"扩张不像实体产品那样指数级增长。一旦 AI 能以极低边际成本生成软件,软件供给曲线变得几乎水平,单个软件的"被定义价值"会被快速稀释。所以"流向产品定义岗"这件事不是均匀扩散,而是高度集中化——真正能定义"哪些软件值得被定义"的人,会非常少。
04
AI 真正的价值,是把人的注意力还给人
4.1 主流叙事浅了一层
业界讨论 AI 价值的时候,主流叙事是"AI 让人做事更快"。这个说法当然没错,但它停在一个比较浅的层面。
如果换一个角度——人作为碳基智能体,算力本来就是有限的,注意力是稀缺资源——那 AI 真正的价值就不是"加速生产",而是把人的注意力从一堆琐碎事务里释放出来,让它能集中到只有人能做的事上。
这两个视角看着差不多,但长期会分化成完全不同的产业组织形态。
| 视角 | AI 在做什么 | 人变成了什么 |
| --- | --- | --- |
| 效率视角 | 让人做事更快 | 在大量琐碎事务里继续打转,只是更快 |
| 注意力视角 | 让人不需要再做那些事 | 退守到最稀缺的判断位上,做更少但更关键的事 |
效率视角下你会鼓励人多用 AI,做更多事;注意力视角下你会鼓励人多用 AI,把更多事从自己手里挪走。
4.2 这正好和"人是偏差拉回者"对上了
注意力视角下 AI 的目的就清楚了:不是替代人,是让人能集中算力做只有人能做的事——也就是边界守卫、价值定义、偏差仲裁。
也就是说 AI 为中心这件事的真正动机,不是"让 AI 多做",而是"让人能少做但做对"。这一句话能把后面所有路线推演的终极目的说明白。
05
为什么"人为中心 + AI 辅助"是弯路
5.1 当下业界主流模式
现在业界主流的 AI 工程模式,不管叫 Copilot、Cursor、Cline,本质上都是"人为中心 + AI 辅助"——人依然是流程主体,AI 只是局部加速器。
这种模式听起来稳健,做起来也容易上手,老板也愿意为它付费,员工也不抵触。但它在范式层面是错的。
5.2 它没有消除不确定性,它在循环放大不确定性
在 Copilot 模式下,AI 的训练数据是人写的代码,它学到的是人类程序员的模式、风格,包括各种典型错误。它没有自己独立的、可验证的、确定性的"质量函数"——它只是在概率上模仿"看起来像对的代码"。
这件事的麻烦在于:
```
人的不确定性 → AI 训练数据 ↓ AI 学会人的不确定性模式 ↓ AI 输出 = 人的不确定性的"统计平均" ↓ 人 review AI 输出,但 review 的标准还是人原来的标准 ↓ 不确定性在「人 → AI → 人」之间循环往复,被放大、被合法化
```
人成了唯一的偏差拉回者,但这个角色本身就是旧软件工程失败的根本原因——人脑覆盖不了状态空间。让人去校验 AI,等于让自己的影子去打自己。
这个判断也解释了一个反直觉的现象:很多团队接入 Copilot 之后,编码速度提升 20-40%,但项目级 bug 率没明显下降,review 工作量反而上升。主流解释是"AI 还不够强",但更深的解释是:Copilot 这套模式本来就不是为消除不确定性设计的——它是用统计模仿人类工作的概率拟合器。
5.3 反馈回路被人切断了
Copilot 模式还有一个更根本的缺陷:反馈回路是断的。
AI 给出建议,人采纳、修改或者抛弃——这个反馈不会以结构化的方式回到 AI。改了几个字符,但"为什么改"没有信号;不同人的标准还不一样;bug 暴露出来的时候 AI 早已经忘了上下文。这导致 AI 永远停在"通用编程模型"的水平,永远学不会你团队的领域偏好、工程规范、业务约束。
这件事的战略后果比技术后果更严重:在 Copilot 模式下,反馈最终积累到 AI 厂商那里,不在你团队手上。你团队做的事情是在帮 OpenAI、Anthropic 训练他们的下一代模型,但你自己的工程资产没增加。
5.4 真正应该走的双爬坡
把前面这些拼起来,可以推出一个我觉得对未来很关键的判断:AI 软件产线的良率提升,依赖"AI 能力"和"工程框架成熟度"两个变量同步爬坡,而它们之间互相加速。
```
AI 能力越强 → 工程框架可以承担更多任务 → 产线的偏差案例库越丰富 → AI 的训练 / 调优反馈越充分 → AI 能力进一步增强
```
这是个正反馈循环,但这个循环只有在"AI 为中心"架构下才能闭合。Copilot 架构下,反馈会被人这一环节切断,循环转不起来。
把两种模式放一起对比就更清楚了:
| 维度 | Copilot 模式 | AI 为中心模式 |
| --- | --- | --- |
| 反馈频率 | 低 | 高(自动验证回路天然产生) |
| 反馈密度 | 低("接受/拒绝" 1 bit) | 高(验证报告 + 偏差规则) |
| 反馈对象 | 训练通用模型 | 沉淀本团队、本领域的专属规则库 |
| 能力爬坡的载体 | AI 厂商(你不受益) | 你的产线本身(你直接受益) |
把这件事说得直接一点:Copilot 模式下你团队是在为 AI 厂商打工;AI 为中心模式下,你团队才能积累自己的工程资产。
5.5 历史规律也站在这边
工程史上每一次范式跃迁都遵循同一条规律:新范式的成熟,不是通过"用旧范式包装新工具"实现的,而是通过"重构整个工程流程让新工具占据中心位"实现的。
| 跃迁 | 错误的过渡形态 | 真正的新范式 |
| --- | --- | --- |
| 手工到机械 | 把蒸汽机当大号风箱用 | 设计专门为蒸汽机优化的工厂布局 |
| 机械到电气 | 用电动机直接替换蒸汽机,保持原有传动轴 | 每台机器独立电动机,重新设计车间 |
| 模拟到数字 | 用计算机模拟纸质表单 | 重新设计数字原生流程 |
| 单机到互联网 | 把单机软件搬到网页 | 互联网原生应用 |
| 传统软件到 AI 软件 | Copilot 在 IDE 里塞 AI 建议 | 认知流水线重构整个开发流程 |
最经典的案例是 20 世纪初的电气化。福特发明流水线之前,工厂用电动机的方式是直接拿它替换蒸汽机——还是用一根传动轴带动整个车间。效率比烧煤略好,但提升有限,三成不到。福特做对的事情是给每台机器单独装电动机,并按"电力本位"重新规划生产线。这一变效率提升了几倍到十几倍。这场变革花了将近 30 年,而第一波"用电动机直接替换蒸汽机"的公司全部被淘汰了。
当下的 Copilot 模式,正是 20 世纪初那种"用电动机直接替换蒸汽机"的过渡形态。它不会是终局。
06
让 AI 工程级可靠的唯一已知机制
6.1 把 AI 推到中心位之后,下一个问题马上来
好,假设接受了 AI 为中心。下一个问题立刻冒出来:怎么让一个概率性输出的 AI,变成工程级可靠的东西?
大模型的根本问题就是输出的概率性——幻觉、漂移、不可形式化验证。这意味着 AI 永远没办法"自证清白",它的内部状态没法保证输出对错。
所以唯一能让 AI 输出变得工程级可靠的办法,是外部强加一个确定性裁判。把 AI 的概率性输出,强制对接到一个有客观对错的验证系统,让 AI 每一次输出后被迫接受确定性的审判。
| 节点 | 确定性裁判 | 工程化机制 |
| --- | --- | --- |
| 编码 | 编译器 + 单测 + 类型系统 | "代码能跑且测试通过"是客观事实 |
| 契约 | 契约校验器 | "符不符合 proto 规范"是客观事实 |
| 部署 | 灰度监控指标 | "线上是否报错"是客观事实 |
| 设计 | 性能仿真器 | "压测是否达标"是客观事实 |
一个工程节点能不能把 AI 工程化,本质上取决于那个节点上有没有一个客观的确定性裁判存在。这是把概率性认知工程化的唯一已知机制。
6.2 历史的接力棒
这恰好接上了第一章末尾那个伏笔:过去五十年软件工程的"失败",反而给 AI 软件工程的"降临"准备好了一件最关键的武器——成熟的自动化验证基础设施。
五十年的 CI/CD、单元测试、类型系统、形式化方法、契约编程,没让软件工程"工程化",但它们留下了一整套可以拿来当确定性裁判的设施。AI 现在终于可以站在这套设施肩膀上,第一次实现真正的工程化。
这件事我每次想到都觉得有点诗意:"失败的五十年"留下的废墟,刚好是新范式的地基。
07
闭环优先,节点逐步开放
7.1 "逐节点替换"听起来稳,做起来错
从 Copilot 走向 AI 为中心,直觉上的路径是按节点逐个替换:
```
原流程:人需求 → 人设计 → 人编码 → 人测试 → 人部署 ↓ 逐节点替换 人需求 → 人设计 → AI 编码 → 人测试 → 人部署 ↓ 再替换 ...
```
但这条路径在工程上是错的。问题在于,每一个 AI 节点都受限于上下游的"人化"接口。AI 节点之间没法直连,被人节点切成了孤岛——每个 AI 节点只能在"人节点夹缝中"做局部优化,没办法形成端到端的 AI 主导流程。
这其实又回到了 Copilot 模式的天花板。
7.2 应该走的是"先建小闭环,再扩边界"
我倾向的路径是这样的:不逐节点替换,先建立一条端到端封闭的"AI 全流程小回路",再逐步把它的每个节点开放给更复杂的真实需求。
具体形态可以这样想:
```
第一步:建立小闭环 挑一个范围足够小、足够确定的子领域 在这个子领域上让 AI 跑全流程: 需求 → 设计 → 编码 → 测试 → 部署 人只在「输入端定义目标」和「输出端验收」两端介入 这条闭环就是 AI 为中心的最小可行原型第二步:闭环内迭代 在小闭环内积累偏差案例库 把"AI 拉不回 → 人拉回"的规则沉淀到系统 AI 能力和框架成熟度同步爬坡第三步:扩大闭环边界 随着闭环成熟度提升,扩大它能覆盖的领域复杂度第四步:闭环吞并 最终扩张到整个软件工程流程都被 AI 闭环覆盖 人退守到价值定义层和偏差边界层
```
两种策略最大的差别在爬坡的单位上:
| 策略 | 爬坡单位 | 爬坡机制 |
| --- | --- | --- |
| 逐节点替换 | 节点 | 每个节点局部优化,整线没人管 |
| 闭环优先 + 节点开放 | 回路 | 整线良率持续爬坡 |
工程上有句老话其实很贴切:激进的路径,往往是稳健的路径;稳健的路径,往往是慢的路径。
7.3 不同节点的可闭环程度差很多
并不是每个节点都同样适合先动。我会用两个维度评估:形式化程度和验证可自动化程度。
| 节点 | 形式化程度 | 验证可自动化程度 | 当前可建闭环 |
| --- | --- | --- | --- |
| 需求分析 | 低(自然语言) | 低("对不对"靠人) | 困难 |
| 系统设计 | 中(架构图、接口) | 中(性能可仿真,可维护性难判) | 部分可行 |
| 编码 + 测试 | 高(语法、类型、契约) | 极高(编译 + 测试) | 最适合先做 |
| 发布运维 | 高(监控指标) | 高(自动告警 + 回滚) | 适合做 |
这就给出了一个挺关键的结论:"AI 为中心"不是一夜之间全节点切换,而是从形式化程度最高的节点开始向外辐射。
这恰好对应工业革命的真实路径:先是纺织(最容易机械化的环节),后是运输,再是通讯,最后才是管理决策。
按这个顺序展开会是这样:
```
第一阶段:先在"编码 + 测试"建立 AI 闭环 选小领域(管控点、契约、异常码这种) 建"生成 - 验证 - 修复"全自动循环 沉淀偏差规则库 让产线良率开始爬坡第二阶段:扩展到"发布运维" AI 自动渐进发布 AI 自动监控、定位、回滚 把编码闭环和运维闭环连起来第三阶段:上探到"系统设计"第四阶段:最后才是"需求分析" 等大模型在"业务理解"上有质变 在此之前,需求节点保持"人为中心 + AI 辅助"是合理的
```
08
落地:分治结构继承与六阶段演进
8.1 分治结构应该被继承下来
这条路径有个底层判断:AI 时代的研发组织结构,应该继承人类组织已经验证有效的"分治网络/树形结构",而不是被 AI 重新发明。
这一点为什么重要?因为它点出一个被普遍忽略的事实:"分治"不是人类组织的偶然选择,而是注意力有限的智能体处理复杂问题的必然结构。
人在解决复杂问题时面临一个矛盾——知识广度和精度不能兼得。这是注意力有限的根本表现。人类的解决方案是分而治之,把问题拆成网络或树形结构,每个节点负责一部分。
只要 AI 注意力同样有限(事实上当前所有大模型的上下文窗口都是有限的),AI 组织就必须遵循同样的分治结构。这一点 AGI 出现之后也不会变,因为算力和注意力总是有限的。
8.2 这把"等 AGI"的等待心态打穿了
很多团队在 AI 工程化上观望,本质上是在等"模型够强"。但如果分治结构是必然的,那这个等待就没意义了——就算未来出现 AGI,组织结构依然要分治。
分治结构是 AGI 之前就要建好、AGI 之后还能继续用的工程基础设施。它不是过渡方案,是终极方案。现在不建,等 AGI 来了再建,会被已经建好分治结构的玩家代际碾压。
工业革命的真实历史就是这样——福特流水线的"分工结构"在电气化、自动化、机器人化时代都被继承下来,分工的颗粒度变了,但分工本身没变。
8.3 现有研发组织结构会被怎么继承
这里要先澄清一个关键点:"继承"指的是结构骨架被继承,分治边界、协作拓扑、评审校验环节、组织接口这些保留下来;不是人的岗位被继承。
所有传统软件工程角色——不管是代码生产、测试、发布、问题定位,还是方案设计、评审、跨域协调——最终都会被对应的 AI 产线全面接管,人最终都要站在产线外。差别只是先后顺序,不是有没有。这恰好和上一章"节点的差异化展开顺序"完全一致:编码 + 测试,然后发布运维,再然后系统设计,最后是需求分析。
| 现有组织结构 | 结构骨架是否被 AI 产线继承 | 人退到产线外的时序 | 说明 |
| --- | --- | --- | --- |
| 分治单元(产品域、业务域) | 完全继承 | 不适用,结构本身不是岗位 | 边界保留,承载者从人换成智能体集群 |
| 代码生产团队 | 继承为"编码产线" | 第一波(已经在路上) | 形式化程度最高、确定性裁判最完备,最先被产线化 |
| 测试团队 | 继承为"测试产线" | 第一波(与编码同期) | 与编码产线天然耦合,自动验证基础最成熟 |
| 发布团队、SRE | 继承为"发布产线" | 第二波 | 监控、灰度、回滚已经高度自动化,剩下的是 AI 接管决策 |
| 问题定位团队 | 继承为"问题定位产线" | 第二波 | 日志、链路、根因分析有结构化输入,AI 接管路径清晰 |
| 评审团队 | 继承为"评审智能体集群" | 第三波 | 多模型对抗评审替代多人评审,但需要先有可形式化的评审标准 |
| 方案设计团队 | 继承为"方案设计智能体集群" | 第三波 | 需要等领域本体足够形式化(管控建模、契约建模成熟) |
| 需求分析、产品定义 | 继承为"需求产线" | 第四波(最晚) | 隐性知识最密集、确定性裁判最弱,最后被产线化 |
| 跨域协调(架构组、总监层) | 继承为"分工协调总线" | 第四波 | 元控制器,本身就是产线的产线,只能在所有子产线成熟后建成 |
这里有一个观察可以再强调一下:没有哪一类角色是"被特殊优待保留"的。所有团队都会在它对应的"确定性裁判"成熟时被产线化吸收,然后人退守到该产线的边界监督位。
进一步推论:"产线设计师"角色本身也终将被更高阶的产线吸收——只要某天"如何设计产线"这件事的确定性裁判被建立起来。这是这套理论的递归一致性,没有终极避风港,只有持续的边界外推。
8.4 六阶段演进路线
把单条产线(编码 + 测试)的建设细化成阶段:
```
阶段 1:单分治单元 70% 需求实现 0 人工代码 AI 写出 70% 的代码,但还需要人审查、修改 这是当前业界主流位置(接近这一阶段)阶段 2:单分治单元 90% 需求实现 0 人工代码 AI 写出 90% 的代码,剩下 10% 是真正复杂场景 这是当前最先进团队的位置★ 阶段 3:单分治单元 70% 需求实现 0 人工接管 质变点——AI 不只写代码,连"自己不知道怎么办"也消失了 这是从"概率正确"到"工程可靠"的跨越 ★ 关键质变断点阶段 4:单分治单元 80% - 90% 需求实现 0 人工接管 单分治单元几乎完全自治 单元已经成为"AI 产线模块"阶段 5:搭建分工协调总线 把多个自治单元连起来,形成完整产线 元控制器登场,对应原有的方案设计、评审团队等阶段 6:法不变同理复制 第一条产线(编码 + 测试)建成后,方法论沉淀为模式 按 7.3 节点形式化程度由高到低复制: 第一波:编码 + 测试产线(已含在阶段 1-5) 第二波:发布产线 + 问题定位产线 第三波:系统设计产线(需领域本体足够形式化) 第四波:需求产线(最晚——隐性知识最密集,确定性裁判最弱) 所有研发最终转变为产线维护、设计工程师,不在任何核心产线内部
```
8.5 阶段 2 到阶段 3 中间藏着一个质变
这条路线最锋利的设计在阶段 2 到阶段 3 中间——从"0 人工代码"到"0 人工接管"是一次质变,不是量变。
很多团队会以为达到"AI 写出 90% 代码"就接近自动化了。但事实是:写出代码不等于不需要人——剩下的 review、纠错、澄清歧义这些"接管"环节才是真正的瓶颈。
| 阶段 | 对应机制 | 关键挑战 |
| --- | --- | --- |
| 0 人工代码 | AI 生成能力 | AI 模型本身够不够强 |
| 0 人工接管 | 不确定性自纠 + 隐性知识蒸馏 | AI 自己能不能识别"我哪里错了" |
从阶段 2 到阶段 3 的跨越,根本不是模型能力升级能解决的。它必须靠三件事配合:确定性的强迫接触(前面讲过的自动验证基础设施)、场景驱动的隐性知识蒸馏(领域规则库的沉淀,第十章详细讨论)、还有一种主动反思机制——AI 主动追问"我为什么被纠正"。
8.6 阶段 5 的"分工协调总线"
阶段 5 引入了一个我觉得很关键的概念:分工协调总线,对应原有方案设计、评审团队的智能体化。
要先做一个时序辨析:阶段 5 搭建协调总线(基础设施建成),不等于 §8.3 里"跨域协调团队第四波退守产线外"(人岗位变迁)。
* 阶段 5 :协调总线作为编排基础设施搭建起来,但此时它编排的还主要是编码、测试产线,元控制器的关键决策仍然由人(架构组、总监层)做出。
* 第四波:当所有子产线都成熟、协调总线本身也积累了足够的"产线编排偏差案例库",才轮到跨域协调团队作为人退守到这条总线的边界监督位。
基础设施先建好,人后退守——这恰好是工业革命的真实路径:流水线先建好,工艺工程师才从车间退到调度室。
这个总线的妙处在于:它不是技术总线(事件总线、消息总线),而是组织结构的工程化映射。
| 维度 | 经典消息总线 | 分工协调总线 |
| --- | --- | --- |
| 承载内容 | 事件、消息 | 任务、协作流程、评审决策 |
| 节点 | 服务 | 智能体集群(每个对应一个原团队职能) |
| 控制 | 消息路由 | 任务分发 + 评审编排 + 偏差仲裁 |
| 元数据 | 消息元信息 | 领域知识、评审标准、历史决策 |
这个总线的本质是组织协作流程的代码化——从"组织架构到软件架构"的同构映射。AI 时代要建的"产线",和当前的微服务架构、消息中间件,是完全不同的东西。它需要一个新的"组织级中间件",业界目前没有任何公司在做这件事。
8.7 法不变,同理复制
第一条产线建好之后,方法论本身可以沉淀为可复制的工程模式,并指数加速地扩展到测试、需求、发布、问题定位等所有研发环节。
```
第一条产线(编码产线)建成需要大约x年(艰难探索)第二条产线(测试产线)建成需要大约x/2年(复用方法论)第三条产线(发布产线)建成需要大约x/4年...
```
这是一个指数加速过程——一旦第一条产线跑通,后续产线的建设速度会快速收敛。福特流水线建立后二十年内汽车、电器、纺织、化工全部产线化,就是这个规律——从 1 到 N 的扩张比 0 到 1 快得多。
战略含义很直接:今天投入"第一条产线"建设的团队,会获得不对称的战略优势。他们率先掌握了产线建设方法论,未来所有领域都能复用这套方法论。
8.8 分治单元的颗粒度是隐藏前提
这条路线图所有阶段都建立在一个隐含前提上——分治单元已经被合理切分。这个前提其实是最难达成的。
切错的典型方式有三种:
* 切得太大:单元内部仍然超出 AI 注意力极限,"0 人工代码"做不到。
* 切得太小:单元间通信成本暴涨,协调总线变成瓶颈。
* 按技术分而不是按业务分:单元间高度耦合,没法独立演进。
那应该怎么切?工业革命给出过答案——按"端到端业务价值"切。
汽车流水线不是按"螺丝、电焊、喷漆"切,而是按"前桥、底盘、车身、动力"切——每个单元都对应一个端到端的业务子价值。映射到 AI 软件产线,分治单元应该按"完整的业务能力"切,而不是按"技术模块"切。
09
四节点重构的具体形态
9.0 三种切法的统一映射
文章在不同地方用了三种粒度来切软件工程流程,先把它们的映射关系说清楚:
| 视角 | 切分维度 | 数量 | 对应章节 |
| --- | --- | --- | --- |
| 流程节点 | 按"工作内容相似性" | 4 个 | 9.1 |
| 产线 | 按"独立 AI 闭环可行边界" | 5 条 | 8.4 |
| 现有团队 | 按"传统组织分工" | 8 类 | 8.3 |
三者不是一一对应,而是逐层细化:
```
节点(最粗) → 产线(中粒度) → 团队(最细)═══════════════════════════════════════════════════════════════节点 1:需求分析 → 需求产线 → 需求、产品团队节点 2:系统设计 → 系统设计产线 → 方案设计 + 评审团队节点 3:编码 + 测试 → 编码产线 + 测试产线 → 代码生产 + 测试团队节点 4:发布运维 → 发布产线 + 问题定位产线 → 发布、SRE + 问题定位团队跨节点元控制 → 分工协调总线(不是产线,是产线编排器) → 跨域协调(架构组、总监层)
```
几个细节解释一下:
* "编码 + 测试"在 9.1 合并为一个节点,因为它们的确定性裁判几乎共享(编译 + 单测);但作为产线被独立部署时,可以拆为两条(生成产线 + 验证产线)。
* "发布运维"在 9.1 是单一节点;但"问题定位"在工程上有独立的输入输出(日志、链路),可以独立产线化。
* "分工协调总线"不是产线本身,而是产线之间的编排器,所以不出现在节点和产线列表里,但出现在 8.4 阶段 5 和 8.6。
9.1 四个节点分别会怎么变
需求分析节点
AI 为中心:智能体基于对话和资料库,直接生成结构化的需求规格说明书、用户故事地图和验收条件。
人工辅助:产品经理和用户不再"写需求",而是审查和剪刀——发现 AI 遗漏的隐性需求、模糊的定义、不符合业务价值排序的地方,并补充修正。每一次修正都是一次强对齐信号。
系统设计节点
AI 为中心:智能体基于确认的需求,生成多种架构方案,并自我模拟评估其非功能属性(性能瓶颈、单点故障等等)。
人工辅助:架构师不画图,做仲裁和权衡——当 AI 给出两个在技术上同样可行、但在"可维护性"和"快速上市"之间有冲突的方案时,人介入,基于经验和战略做最终裁定。这是定义"什么才是更好的偏差"。
编码与测试节点(革命性最强)
AI 为中心:核心不是 AI 写代码,而是建立一个自动生成、自动验证的循环——AI 生成代码 → AI 生成测试用例 → AI 执行测试并修复 → 直至通过所有验证。这个循环甚至可以包含多个专门 AI(生成者、审查者、测试者),像流水线一样对抗协作。
人工辅助:开发者的角色进化为"AI 产线调试员"。他不再写具体功能,而是在循环外设定目标架构和不可逾越的约束;监控自动循环的健康度——测试覆盖率是否在下降,生成代码是否在关键模块出现不可解释的复杂性;当 AI 循环自己转不动或者陷入错误的局部最优时,切入注入新的知识或者直接修正关键代码块,做工艺级的偏差拉回。
发布与运维节点
AI 为中心:AI 自动进行渐进式发布、实时监控异常、根据日志自动定位故障根因并尝试回滚或热修复。
人工辅助:SRE 成为最终安全阀——处置 AI 无法理解、需要跨系统权衡的复杂故障(比如,是牺牲一部分用户体验来保证核心交易链路,还是相反)。这是定义"系统安全的最终值函数"。
9.2 分层递阶控制结构
把上面这些节点放进一个分层递阶控制结构里:
```
┌──────────────────────────────────────────────────────────┐│ 第 4 层:哲学层 / 价值层 ││ - 价值函数定义 ← AI 价值架构师 ││ - 战略对齐 ← CEO / CTO ││ - 伦理仲裁 ← 独立伦理委员会 │├──────────────────────────────────────────────────────────┤│ 第 3 层:决策层(治理) ││ - 产线目标架构 ← 组织级架构师 ││ - 安全红线 ← AI 治理官 ││ - 自主修改授权 ← Change Advisory Board │├──────────────────────────────────────────────────────────┤│ 第 2 层:协调层(产线编排) ││ - 智能体编排 ← 认知流程架构师 ││ - 实时监控干预 ← AI 产线工程师 ││ - 多智能体调优 ← AI 调优师 ││ - 涌现偏差归因 ← 跨层诊断专家(关键新岗位) │├──────────────────────────────────────────────────────────┤│ 第 1 层:执行层(兜底) ││ - 隐蔽 Bug 兜底 ← 资深技术专家 ││ - 形式化验证 ← 形式化方法专家 │└──────────────────────────────────────────────────────────┘
```
经典分层递阶控制是决策、协调、执行三层。AI 软件工程要做两处扩展:往上扩出一个哲学价值层,因为"价值函数定义"不属于决策层;协调层增加一个横切机制,专门处理跨层涌现偏差。
这里要补一个递归一致性的提醒:第 4 层"哲学价值层"也不是终极避风港。一旦"价值函数定义"这件事的确定性裁判被建立起来(比如可量化的伦理评估器、可仿真的战略沙盘),这一层同样会被产线化吸收,人会继续向更高的元层迁移。当前把它列为最高层,是因为它在可见的十到十五年时间窗内"确定性裁判最难建立",而不是它具有"原则上不可工程化"的地位。
9.3 经典递阶控制在 AI 系统里失效的地方
经典分层递阶控制有一个隐藏前提:下层的扰动不会逆向传播到上层。但 AI 系统会破坏这个前提,原因有几个。
第一个失效是 AI 的能力会"自下而上"重塑上层目标。执行层的 AI 能力突变(比如 GPT 升级),会逼协调层重新划界。经典控制论里没有"执行单元能力突变"这种情况,但在 AI 系统里这是常态。AI 软件产线的层级边界本身是不稳定的,需要经常重新划界。
第二个失效是 AI 的偏差会"涌现",没法预先归因到某一层。经典系统里偏差是可定位的——温度高了就是温控器问题。但 AI 系统里,一段错误代码可能是需求理解偏差(决策层),可能是智能体编排错误(协调层),可能是单个智能体输出问题(执行层),也可能是几个智能体的交互涌现。多智能体系统的偏差经常是涌现性的,不归属于任何单一层级。AI 产线工程师在做偏差归因时,会面临一种经典工程师从来没见过的复杂度。
修正方式是增加一个跨层耦合控制的横切机制:
```
┌─────────────────────────────┐│ 决策层 │├─────────────────────────────┤│ 协调层 │ ← 横切层:偏差归因 / 涌现监测 / 层级再划界├─────────────────────────────┤│ 执行层 │└─────────────────────────────┘ ↑↓ 双向耦合
```
横切层不是新的层级,而是专门处理跨层涌现偏差的诊断与重构机制。这一层在经典工程里不需要,但在 AI 工程里是关键岗位。
9.4 价值函数定义和偏差仲裁是两回事
需要把"价值函数定义"和"偏差仲裁"拆开,它们性质完全不同:
| 维度 | 价值函数定义 | 复杂权衡仲裁 |
| --- | --- | --- |
| 时机 | 系统设计时 | 系统运行时 |
| 频次 | 低频,但影响深远 | 高频,但单次影响小 |
| 能力要求 | 抽象建模 + 长期判断 | 实时决策 + 多目标平衡 |
| 类比 | 工艺设计师 | 调度员、应急指挥 |
| 出错成本 | 极高(系统从根上跑偏) | 中等(可纠正) |
它们最终会分化为两个完全不同的岗位——AI 价值架构师在系统启动前定义"什么是好";AI 运行时仲裁员在系统运行中处理价值冲突。价值架构师的稀缺性远高于仲裁员——前者影响整个系统的方向,后者只影响单次决策。
10
真正最难的那道坎:场景驱动的隐性知识蒸馏
10.1 这件事是整套理论里被低估最多的一关
前面所有讨论的"双爬坡""闭环优先""节点重构"——都是"建好之后怎么跑"的问题。真正最难、最被低估、也最具决定性的一道坎是:怎么把它建起来。
| 难题 | 难度 | 原因 |
| --- | --- | --- |
| 建立 AI 闭环 | 中高 | 需要重构流程,但有方法论参考 |
| 设计自动验证机制 | 中 | 软件工程五十年积累了基础设施 |
| 分层递阶控制 | 中高 | 需要新岗位,但岗位可培养 |
| 隐性知识的主动蒸馏 | 极高 | 既无成熟理论,也无成熟工具,且专家自己都不知道自己懂什么 |
10.2 新人和 AI Agent 在"成为独当一面"这件事上差距在哪
注意力释放论说,AI 让人能集中算力做更高价值的事。但要真正实现这一点,必须先解决一个问题:怎么让 AI 独当一面,把人的注意力提走?
可以做个对照——一个新人和一个 AI Agent,在让他们成长为独当一面的过程中,到底有什么不同?
| 维度 | 新人 | AI Agent |
| --- | --- | --- |
| 被动接收能力 | 中等 | 极强(一次性吃下整个 codebase) |
| 主动追问能力 | 强(会问"为什么") | 弱(被问才答) |
| 元认知能力 | 强("我哪里没懂") | 弱(不知道自己不知道) |
| 反思归纳能力 | 中(写复盘、总结模式) | 几乎没有(每次会话独立) |
| 知识蒸馏能力 | 强(能从老员工身上"挖"知识) | 几乎没有(只能基于已显化的文本) |
| 跨场景关联 | 中 | 中(取决于上下文窗口) |
| 长期记忆沉淀 | 强(经验内化为直觉) | 极弱(默认无状态) |
新人和 AI 在"接收 / 学习能力"上其实差不多,AI 在某些维度甚至更强。但在"主动蒸馏知识"这件事上,差距是数量级的。
我会这么总结:AI 缺的不是智能,是"自主开采知识矿"的能力。
10.3 知识不会自然流淌出来
这里有一条我觉得很重要的元规律:人的知识不会自然流淌出来,必须被具体的问题和场景驱动才会被逐步从大脑中蒸馏出来。
回想人类组织搞知识管理的所有失败案例:
| 尝试 | 失败模式 |
| --- | --- |
| Wiki / Confluence | 写的人没动力,看的人找不到 |
| 知识管理系统(KM) | 大量文档堆积,但用的时候搜不到 |
| ISO 9001 流程文档 | 一旦写完就过时,没人维护 |
| RAG / 知识库 | 喂进去的是"显性知识",不是"被场景驱动蒸馏的知识" |
所有失败的共同根因都在这一条上:没有问题驱动,专家脑子里 90% 的"经验直觉"永远不会被显化。
这件事在哲学上其实不是新洞察。波兰尼 1958 年就讲过——"我们知道的比我们能说出来的多"(We know more than we can tell)。当时是哲学命题,现在变成了 AI 工程化的核心瓶颈。
10.4 这件事我会叫它"场景驱动的隐性知识蒸馏"
这是 AI 为中心范式得以成立的关键工程门槛。它的核心特征有几条:
* 场景驱动:知识必须由具体问题、场景驱动才能涌现,孤立提问问不出来。
* 主体二元:蒸馏的主体不能是 AI(AI 没有主动性),但也不能完全是人(人有惰性)。
* 协作回路:必须由人和 AI 共同构成"主动追问 + 即时反馈"的协作回路。
* 场景化存储:蒸馏出的知识必须以"场景化"格式存储,而不是"陈述性"格式。
10.5 这道坎为什么特别难
第一个难点:专家自己都不知道自己懂什么。
即使你直接问专家"请把你所有经验告诉我",他能输出的只是冰山一角。剩下 90% 他自己都不知道自己拥有,必须等具体问题碰到了才会涌现。"知识蒸馏"在结构上比"知识采集"难一个量级——你不能"问出来",你必须"逼出来"。
第二个难点:蒸馏需要"对的问题",但"对的问题"本身需要知识才能问出来。
```
要让专家的隐性知识涌现 → 需要问"对的问题"要问"对的问题" → 需要懂这个领域而 AI 不懂这个领域 → 问不出对的问题 → 蒸馏失败 ↑↓ 这是个死循环
```
现实中这个死循环靠新人的主动性打破——新人会去观察、试错、被骂、归纳,慢慢摸索出对的问题。但 AI 没有主动性,它的"问题"是被人喂的,所以它永远进不了这个死循环。
第三个难点:蒸馏出的知识形态是"场景化的",不是"陈述性的"。
专家的知识不是"什么是 X",而是"在 Y 场景下应该怎么办"。这意味着蒸馏出来的知识必须以"场景 + 决策"的方式存储,而不是"事实 + 解释"。但当前的 RAG 系统、知识图谱、向量库全都是为陈述性知识设计的——AI 软件工程缺一个"场景化知识"的存储和检索范式。
10.6 几个可以入手的方向
按可落地性从近到远排:
方向一(近期可做):让 AI 主动问"我为什么被纠正了"。
```
AI 输出 → 专家修改 → 系统强制触发: AI 主动比对修改前后 AI 自己生成假设:"专家可能基于什么规则做了这个修改?" 专家确认或修正 AI 的假设 沉淀为"场景规则"入库
```
这个机制的关键是把"专家被动修正"变成"AI 主动追问",把知识蒸馏的认知负担从专家转移到 AI——专家只做判官,不再做老师。这一步在工程上完全可行,当前大模型能力够用。
方向二(中期):AI 不等专家来纠错,而是在专家工作时全程跟随观察。
```
专家做日常工作(写代码、review、决策) ↓AI 全程在旁观察 + 标注异常点: 专家做了 X,但通常情况下应该做 Y 这个判断和上次的判断不一致,是为什么? 专家在某个步骤停顿了 30 秒,可能在权衡什么? ↓AI 主动把疑问做成清单 → 专家在合适时机回答 → 入库
```
类比一下就是新人入职"看老员工怎么做"再问"刚才那个为什么这样处理"。AI 从被动接受指令变成主动观察和提问。
方向三(中期):场景化的知识库格式。
要让蒸馏出的知识能被复用,存储格式必须从"陈述性"变成"场景化":
```
scenario_id: SCN-001context: - 业务领域:跨境支付 - 触发条件:商户提交退款且金额 > 单笔限额 - 上下游状态:原支付已结算 + 商户余额不足decision: - 推荐动作:拆单退款 - 不推荐动作:直接拒绝rationale: - 商户体验:避免一次性大额拒绝 - 风控原则:拆单后单笔风险可控 - 历史依据:2024-Q3 类似场景共发生 N 次,全部用拆单方案exceptions: - 当商户处于风控黑名单时,仍直接拒绝provenance: - 蒸馏来源:与专家 X 在 2026-05-23 关于工单 #YYY 的讨论
```
这种格式有几个关键特性:context 让 AI 能精准匹配,rationale 让 AI 理解"为什么"从而扩展到相似场景,exceptions 让 AI 识别"什么时候这条规则不适用",provenance 让人可以审查、追溯、维护。这是 RAG 时代的下一代知识库形态。当前没有任何主流工具支持,但这是必经的方向。
方向四(长期):AI 主动构造极端案例反向逼问专家。
```
AI 已掌握部分领域知识(来自前面方向积累) ↓AI 主动构造"边缘场景": "如果 X 发生在 Y 的同时,应该怎么办?" "你说过 A 应该这样处理,但当 B 也成立时还成立吗?" "我注意到规则 R1 和 R2 在 C 场景下会冲突,怎么解?" ↓专家被迫思考从未遇到过的场景 → 输出新知识 → 入库
```
这个方向的妙处是让 AI 的"知识盲区"反过来变成蒸馏的杠杆。AI 不知道的越多,能问出的好问题就越多,专家被逼出的隐性知识就越多。
这恰好对应工程史上的一条铁律:最深的知识,永远是被"那个不该回答的问题"逼出来的。
11
人的位置:从"人肉编译器"到"产线设计师"
11.1 过去五十年程序员的真实角色
我想用一个有点戳人的说法重新定位过去五十年程序员的角色:很大一部分软件从业者,其实是在充当"人肉编译器"——把模糊的业务需求翻译成精确的机器指令。
这话有点伤人,但放下情绪冷静看:
| 表象 | 真相 |
| --- | --- |
| 程序员是"创造者" | 大部分时候是翻译者 |
| 软件开发是"创作" | 大部分时候是形式化编码 |
| 编程是"高阶认知工作" | 大部分编码工作是"模糊语义到精确语法"的机械翻译 |
这就推出一个挺尴尬的结论:过去五十年软件行业的"高薪",本质上是在为"翻译能力的稀缺"付费,而不是为"创造能力"付费。
而大模型恰好就是第一个比人更便宜、更稳定的"语义翻译器"——它直接打中了软件行业薪酬结构的命门。这也解释了为什么 AI 对软件行业的冲击会比对其他白领行业更剧烈:因为软件行业的"高薪溢价"恰好建立在 AI 最擅长的能力上。
这里要补一个对照,避免和前面"过去五十年留下了 CI/CD、单测、类型系统等新范式地基"的褒义评价产生矛盾。这俩判断其实是同一枚硬币的两面:
| 面向 | 主体 | 评价 |
| --- | --- | --- |
| 人所做的"模糊语义到精确语法翻译" | 程序员的认知劳动 | 是被 AI 替代的命门——薪酬溢价的真实来源被打中 |
| 过程中沉淀的工具链(编译器、测试、契约、监控) | 工程基础设施 | 是新范式的地基——下一代的"确定性裁判"就建在它上面 |
换句话说:程序员个人的劳动被贬值了,但程序员群体留下的工具链反而升值了。这两个评价并存才完整,它们一起回答了"为什么过去五十年是失败的工程化,但又不是白费的五十年"这件事。
11.2 五类全新岗位
把"产线建设、维护、调优"具体化下来,会出现五类岗位:
| 岗位 | 职能 | 类比经典工程 |
| --- | --- | --- |
| AI 产线架构师 | 设计软件生产流程:哪些环节 AI 做、哪些人做、如何衔接 | 工艺工程师 |
| 认知 SOP 工程师 | 把领域知识沉淀为 AI 能稳定执行的流程模板 | 工艺标准编写员 |
| 偏差检测工程师 | 设计自动验证 / 反例生成 / 输出审查机制 | QA、质量工程师 |
| AI 产线调优师 | 持续优化提示词、知识库、模型选型,提升产线良率 | 产线调优师 |
| 认知边界守卫 | 处理 AI 拉不回的偏差 | 资深工艺专家 |
这里面最稀缺的是"认知边界守卫"。它本质是"偏差拉回"具象化后的产物,要求一个人同时具备比 AI 更深的领域知识(否则识别不出 AI 错在哪)、比普通人更强的元认知(能判断 AI 的判断是否合理)、还有形式化思维(能把模糊偏差转成可验证规则)。
11.3 终极稀缺岗位是"产线设计师"
往前推到阶段 6 之后还会进一步分化:
```
阶段 6:所有研发都是产线维护工程师 ↓阶段 7(推论):产线维护工程师内部分化 产线运维工程师(维护现有产线,类似 SRE) 产线设计师(设计新产线,定义分治结构)★ 真正稀缺
```
为什么会分化?因为维护是高频但低密度认知的工作,会被工具进一步自动化;而设计是低频但极高密度认知的工作,永远稀缺。
产线设计师的能力画像我会画成这样:
| 能力维度 | 要求 |
| --- | --- |
| 业务理解深度 | 极高(必须能识别业务的"自然分治边界") |
| 工程方法论 | 极高(必须懂分层递阶控制论、二阶控制论) |
| 隐性知识蒸馏能力 | 极高(必须能把专家直觉变成产线规则) |
| 跨域抽象能力 | 极高(必须能复用方法论到不同领域) |
11.4 教育体系的滞后
如果未来软件工程师的核心岗位变成"产线架构师 / 认知流程架构师 / 跨层诊断专家 / 产线设计师",那今天的高校课程体系完全无法培养这种人——计算机系教编程,但新岗位不需要写代码;控制论在自动化系,但他们不懂软件;系统工程在工业工程系,但他们不懂 AI。
这意味着未来十年会出现一种全新的复合型工程师,但没有任何高校在批量培养他们。这是一个挺大的人才结构性短缺。
一个推论:腾讯这种大厂有可能比高校更早完成新一代工程师的培养。
12
把这些串起来
12.1 整体逻辑骨架
把前面所有讨论压成一条主链,大致是这样:
```
软件工程过去五十年其实没真正工程化 ↓ 因为缺少能源换高阶智能这件事 ↓ 大模型实现了它但同时带来了模型的不确定性 ↓ 应对范式二阶控制论(设计能自我纠偏的系统) ↓ 人的角色偏差拉回者 + 边界守卫者 + 价值定义者 ↓ AI 的位置必须是"为中心",否则 会陷入不确定性回声室 双爬坡无法启动 ↓ 工程化的唯一机制确定性的强迫接触(外加确定性裁判) ↓ 落地策略闭环优先 + 节点逐步开放 ↓ 组织结构继承分治网络 ↓ 演进路径六阶段演进 + 法不变同理复制 ↓ 真正最难的瓶颈场景驱动的隐性知识蒸馏 ↓ 终极人力位置产线设计师 + 认知边界守卫
```
12.2 当前的窗口期
我会说一句可能有点煽动的话:这是一个会被五年后回看才意识到价值的窗口期。
认真把"AI 为中心 + 闭环优先 + 分治继承 + 隐性知识蒸馏"这一整套做透的团队,很可能会不远将来对 Copilot 玩家形成代际碾压——就像福特对手工作坊那样。
13
结语
过去五十年,软件工程一直在"管理人的不确定性",但从未真正工程化过。
大模型让"用能源换取高阶智能"第一次成为可能——这才是软件工程真正降临的时刻。但降临不是自动完成的,它需要一场范式的真正变更:
* 范式上:从"人为中心 + AI 辅助"转向"AI 为中心 + 人工辅助"。
* 机制上:把"确定性的强迫接触"做成 AI 输出的工程化裁判。
* 结构上:继承人类组织的分治网络,建立"分工协调总线"。
* 路径上:闭环优先而不是节点替换,从形式化最高的"编码 + 测试"节点起步。
* 门槛上:攻克"场景驱动的隐性知识蒸馏"这道最难的关。
* 人的位置上:从"人肉编译器"重新定位为"产线设计师 + 偏差拉回者 + 价值定义者"。
这不是一个工具升级的问题,是一场比工业革命更深的工程哲学变革。它的真正含义是:软件工程,第一次有可能成为一门和经典工程并列的、真正意义上的工程学。
而这场变革的入场券,发给那些敢于"立刻停止把 AI 当作一个更聪明的键盘,开始把它当作一个有待建设和校准的能源驱动工程系统本身"的人。