软件工程正在经历一场范式革命,甚至整个社会都在经历这样的革命。

从人驯服 AI,到人指挥 AI,再到人直接用意图编排 Agents。一共三次跃迁,三种本质上完全不同的协作关系。

一、人写 AI 的胶水代码

这是当下最普遍的形态,也是大多数人俗称的「AI 应用」。

人仍然是核心的编码者,只不过编码的对象变了 —— 不再是业务逻辑本身,而是 如何把 AI 的能力接入既有业务

工程师要理解业务,然后动手编织一层胶水:设计 Prompt、调用 API、处理上下文、对接数据源、编排工具链。当前市面上大多数所谓的 AI Agent,本质上都是这条路线 —— 由人精心搭建的、以 AI 为执行核心的自动化系统。Surmon.me 上 CyberMonk 也是这样,通过 RAG 把博客内容喂给模型来回答用户问题,链路是人设计的,规则是人定的。

通俗地说:就是 人去写 AI 相关的代码

这个形态的局限很直接:AI 能做什么,取决于人搭了多少脚手架。工程师的想象力和编码能力,或者业务方的设计能力,就是 AI 应用的能力上限。

二、人指挥 AI 写代码

第二形态的分水岭,是上个月 OpenAI 提出的 Harness Engineering

OpenAI 的一个团队用这套方法,构建了一个超过百万行代码的生产系统。整个过程,没有一行代码出自人手。

以前,如果 AI 写出的代码和我们的意图不匹配,我们需要不断优化提示词或者反复迭代,甚至最终必须人上手进行微调(实际干预)。

而在这套工程体系下,工程师做的是:制定架构约束、构建反馈机制、维护机器可读的文档与规范、在关键节点审查纠偏。

简而言之:工程师永远不会去下场编码干预,如果出了问题,就从机制上着手优化,最终 AI 必须输出符合预期的业务代码。

或者通俗地说:现在是 人指挥 AI 写代码,人不再碰代码本身

Harness 这个词来自马具 —— 缰绳、马鞍、嚼子,驾驭「一匹强壮但不知道该往哪走的动物」所需要的全套装备。AI 就是那匹马,Harness Engineering 要解决的,是如何让 AI 这匹马始终可靠地走在正确的路上。

在这种范式下,人的角色发生了根本转变:人不再是业务逻辑的编写者,而是整个系统的治理者与约束制定者。

这与「人写 AI 的胶水代码」最大的区别在于:

以前是人写 AI 相关的代码;现在 Harness Engineering 的产物同样是代码,但生产这些代码的主体已经是 AI。 或者更准确地说,是具备自主规划、调用工具、执行多步任务能力,且稳定、可控、可预期的 Agentic AI。 代码这个中间层还在,人退出了具体的编码过程。甚至,人也可以让 Agentic AI 来写 AI 相关的代码。

我在之前 有提到过Harness Engineering 是一种新范式的社会实验 —— 如果它能在编程领域呈现出高度稳定的成功,很快它就可以在所有传统行业获得更加可靠的成功。

不妨想象一下:一个承包了几十亩地的农场主,以前需要招聘飞手或者租赁公司的无人机撒农药,要关注天气、作物价格的涨跌,要应对自然灾害…… 各种场外变量。要么搭一套公司架构各司其职地运转这个复杂系统,要么事无巨细地亲力亲为。

而现在,这个农场主只需要采购一套成熟稳定的农业 Agentic AI 系统,TA 唯一需要的做的事,就是严谨有序地罗列好自己的所有生产流程和需求,剩下的一切都将会由 AI 去实际完成。而那些 AI 做不到的,就让机器人去完成。

人类真正需要投入的,只有最昂贵的那两样东西:时间、注意力。

这就是「生产力极大丰富」的时代。

三、人以意图编排 Agents

前两种形态是正在发生的、即将大面积发生的。

而第三形态,触及的不是「如何生产软件」,而是「软件本身存在的意义」。

今天的软件世界,是以 软件设计者的意图 为出发点构建的。我想阅读一篇文章,需要打开一个特定的平台,在特定的位置,接受特定的 UI 排版和交互约束。软件设计者决定了我如何消费内容,我只能在这个框架内操作。

第三形态指向的方向是:以使用者的意图为出发点。

我只需要告诉 AI:我想了解这篇文章的核心观点,用我最容易吸收的方式呈现。UI、排版、交互,这些全部变成 AI 在执行层自行处理的细节,而不是我需要适应的约束。

这还只是「消费数据」的场景。如果把消费数据换成 操作数据 呢?

这就是 OpenClaw 正在做的事。

OpenClaw 是今年爆发的开源本地 AI Agents 编排工具,它把各种消息软件(如 WhatsApp、Telegram、Discord、微信)变成了操控一切的入口。用户通过对话发出指令,它就在本地执行:读写文件、运行命令、浏览网页、发邮件、调 API、控制智能设备…… 几乎没有边界。

它在 60 天内积累的 GitHub Star,超过了 React 用十年积累的总量。(当然,安全漏洞也在同步滋生:两个月内已有 9 个 CVE,不过这是另一个话题了)

如果我要执行的任务非常复杂呢?比如我需要一个工作助理,实时帮我监听公司的群消息,有任务来了能自己记一个 TODO,自己拆解具体任务,自己去完成任务,完成了之后还能用我的语气向老板汇报,再写上一份漂亮的工作日志。

这就需要它本身具有 Agentic AI 的能力,而 Harness Engineering 正是构建这类 Agentic AI 系统的工程方法。

再或者,看看这些已经发生的场景:

  • 以前点外卖要打开饿了么,找分类、筛选、下单。现在呢?
  • 以前买机票要打开携程,填日期、比价、选座。现在呢?
  • 以前查快递要打开 App,输入单号、等刷新。现在呢?

虽然 OpenClaw 远不是最终形态,但它作为 Agentic AI 这种范式的激进实现,我们已经可以非常直观地感受到:这个时候,传统意义上的软件(那些有着精心设计的 UI、导航和交互流程的应用)开始退化为数据与能力的容器。 软件不再是用户体验的终点,而是 AI 调用的基础设施。用户面对的不再是软件的界面,而是自己的意图。(就比如我们通过一句话把意图经由千问的对话窗口传递给 AI 来完成下单,而不是直接打开那个外卖软件)

通俗地说:代码都不用生成了,意图直接变成执行(Agents 实例)。

如果把 OpenClaw 直接运行到云端呢?为什么我还需要一个电脑安装一个邮件客户端再让 AI 去读邮件呢?我直接把邮箱的账户密码告诉它,让它在云端 24 小时帮我完成工作不就可以了吗?

没错,那就成了 MindStudio 做的事。

这就是第三级范式:人人都可以在云端编织独属于自己的一个个的 AI 秘书,而且是完全按照自己的需求量身定制的。你不需要懂代码,你只要「会说话」就行。

四、AI 主动预判意图

当清晰、完整、模式化的海量人类意图,又作为新的「知识库」被 LLM 学习训练,第四种形态的轮廓,就逐渐可以想象了。

也或许,它已经存在了:人不再需要表达意图,而是 AI 主动识别并预判意图。

也就是说,AI 不再等待指令,而是根据上下文、历史行为、环境变化,主动提出或执行任务。你的 AI 随身秘书在知道你每天的所听、所见、所闻、所想、所为…… 之后,已经对你的意图进行了「预判」。

你饿了的时候,它直接问的是:是不是还点你经常点的那家外卖?

这个阶段,人又从「意图表达者」变成「意图确认者」,甚至只是「例外处理者」。 Netflix 2024 年底的泰国科幻剧集 《未来与我》 里的 iBuddha,描绘的就是这种形态。

那个时刻,人类要面对的,就不再是技术问题,而是伦理问题了。

人的定位

这几种形态,变化的是范式(形态)。同时,对于工程师来说,也意味着技术栈分工的巨变。

  • 第一形态:工程师是集成者,AI 是工具。 工程师要理解业务,编写胶水,把 AI 接进既有系统。
  • 第二形态:工程师是治理者,AI 是执行者。 工程师要设计约束,制定规范,让 AI 稳定地生产系统。
  • 第三形态:人是意图表达者,AI 是代理人。 人要说清楚自己想要什么,剩下的全交给 AI。
  • 第四形态:人是例外处理者,AI 是管家。 AI 根据海量个人的历史数据主动预判并执行任务,人只在边界处介入确认。

这条演进的终点,是一个反转再反转:过去是软件定义了人的行为方式,未来是人的意图定义软件的存在方式。然后,再由 AI 来定义人的存在方式。

生产力极大丰富之后,可能比「人终于解放了」更早来临的是「人更加焦虑了」。人又被迫地回归到那个更根本又老生常谈的问题:AI 能做几乎所有事,人还应该做什么?

至于工程师这个职业往哪里走,我的判断是:未来的分工不再以端侧区分,而是类似于 全栈工程师意图工程师审美专家

  • 负责编码的全栈工程师,依旧需要理解业务、驾驭 AI、交付可运行的系统,同时维持 Harness 与持续迭代的模型在各个领域的服从性(稳定程度)。
  • 而大部分无需编码的工作,就由最了解业务的专家来完成,在新时代它更贴切的名字应该叫「意图工程师」。他们的产出是足够精确、完整、无歧义的意图描述,驱动 AI 完成实际执行。
  • 审美专家负责那些无法被指令化的价值判断:那些说不清楚,但一眼就知道对不对的感性决策。

AI 可以生成一千张图,但它,不知道哪一张是「对」的。

(完)