第一章 · Harness
01 / 06
?
互动一分钟 · 带着问题听
什么是 Harness?
先别急着翻下一页 —— 在脑子里给它一个定义。
模型大家都熟,可让模型「能干活」的那层东西,叫什么、做什么?
现场讨论 1–2 分钟 下一页揭晓答案
P4 · 一个公式说清楚

Agent = Model + Harness

Model
单次预测机器
会预测下一个 token 的「大脑」
+
Harness
把原始力量转化为
「有用功」的装置
=
Agent
不只是会说话
而是能干活
模型本身没变 —— 真正让它从「会回答」变成「能交付」的,是外面那层 Harness。
「你要么是模型,要么是Harness,没有中间地带。」
P5 · 工程认知的三阶段

Prompt → Context → Harness 工程

我们对 AI 的工程理解走过三个台阶 —— Harness 工程是当前的分界线
STAGE 01
Prompt 工程
关心「我这一次怎么问」。prompt 是一次请求,不是契约 —— 换个说法结果就飘。
STAGE 02
Context 工程
管理模型「能看到什么」:RAG、记忆、上下文压缩。必要,但还不够 —— 它只管输入。
STAGE 03 · 当前
Harness 工程
所有 agent 框架、工具调用拆开看,都是 Harness 的一部分。它管的是「模型怎么持续地干活」。
Prompt 管一句话,Context 管输入,Harness 管整个运行时 —— 一层比一层往「系统」走。
P6 · Harness 的心脏

一个「笨循环」,解决 4 件根本的事

① 生成
② 评估
③ 再来
笨循环
感知 — 行动 — 再感知
给「单次预测机器」装上一个
不停转的循环 —— 这就是 Harness 的本质。

1工具调用

给模型装上「手脚」—— 能读文件、跑命令、调接口,而不只是输出文字。

读文件 跑命令 调接口

2记忆与上下文

记忆、检查点、上下文压缩 —— 让长任务不会「转着转着就忘了」。

系统记忆/检查点当前任务余量

3注意力管理

在大量信息里聚焦当下该看的,避免被噪音带偏。

4领域能力注入

Skill + 本体 + CLI —— 把垂直领域的知识与动作灌进来。← 今天的主角

AI
◀━ skill.md 本体 CLI
P7 · 一个核心论点

AI 工程化,是一项复杂系统工程

决定最终效果的,从来不是单一模型 —— 而是下面每一个变量的叠加。
·模型能力+ ·上下文管理+ ·工具设计+ ·权限控制+ ·验证机制+ ·组织流程+ ·复盘指标

产出本身带随机性

Agent 不是确定函数 —— 同样的输入,输出会浮动。这是它的天性,不是 bug。

部件好 ≠ 整机好

就像造飞机:每个零件都按图设计好了,也不代表飞机上天就能平稳飞行。

所以必须有一套管理方法和标准理论,去支撑每一个部件的设计 —— 而不是碰运气调参。
P8 · 详细类比

造一辆车一样造 Agent

汽车的关键系统各司其职、又强耦合 —— Harness Agent 的复杂度,与之同级。
🚗 汽车关键系统
🤖 Harness Agent
⚙️ 发动机
提供动力,但单靠它车跑不起来。
模型本身
提供智能 / 推理力,单靠它也只是「会说话」。
🔄 变速箱
把动力转成可控节奏;档位没配好,动力再大也顿挫。
笨循环与调度
把模型的原始输出转成可控的执行节奏。
🛞 底盘车架
承载一切的结构基座,决定整车稳不稳。
文件系统与上下文工程
承载任务状态与材料的结构基座。
📡 电控 / 传感
感知环境、反馈状态,让行驶可被纠正。
工具调用与评测反馈
感知结果、反馈状态,让每次行动可被纠正。
造车靠需求管理、子系统拆分、集成验证、可靠性评估这一整套系统工程方法 —— 造 Harness Agent 同理。今天,我们从最可上手的一块 Skill 切进去。