AI Agent 的范式转移：从模型能力到 Harness 控制架

01

智能体的演进：从简单循环到"长航程"代理

00:00 - 06:27

核心观点

早期的智能体因模型能力受限而失败，但 2024 年末见证了"长航程代理"的爆发，尤其是代码执行能力成为了现代代理的标配。

深度阐述

历史回溯

Harrison 回忆说，在 ChatGPT 发布之前，LangChain 就已经提出了"在循环中运行 LLM 并调用工具"的想法。然而，早期的 AutoGPT 等项目之所以未能真正商用，是因为当时的模型（如 GPT-3.5）无法在复杂的推理循环中保持稳定性。

转折点

2024 年 11、12 月，随着 Claude 3.5 Sonnet 等更强模型的出现，以及开发者对"Harness（控制架）"原语的掌握，我们看到了 Claude Code 和 Deep Research 等产品的成功。

两种风格的代理

对话式代理（Conversational Agents）：侧重低延迟、语音交互，通常只调用一两个简单工具。长航程代理（Long Horizon Agents）：这是目前的创新前沿，具备规划、连贯性和深度的代码执行能力。

"代码即代理"

Harrison 提出了一个重要论断：每一个长航程代理都应该是代码代理。因为代码是模型训练中最优质的数据，且代码可以作为一种极度通用的工具，用来解析文件、进行数学运算或实现复杂的逻辑循环。

个人感受

Harrison 在描述早期 AutoGPT 的失败时带着一种"先行者的冷静"，他认为技术的爆发是模型能力与工程架构（Harness）共同进化的结果，而非单一因素。

延伸思考

如果代码执行是代理的基础，那么传统的 UI 交互是否会逐渐退居幕后，取而代之的是代理在沙箱中默默运行数百行脚本？

02

核心争鸣：模型 vs. 框架，以及何为"Harness"？

06:27 - 10:11

核心观点

"Harness（控制架/马甲）"是目前最重要的差异化来源，它决定了模型如何与环境交互，甚至比模型本身更重要。

深度阐述

Harness 的定义

Harrison 用通俗的语言解释道，Harness 是模型与其环境交互的一套机制。它包括工具集、上下文管理、提示词压缩和 UI。

秘密武器

他以 Manis 和 Claude Code 为例，指出这些产品的成功不在于它们用了什么特殊的私有模型，而在于它们的"马甲"做得极好。这种马甲让模型能更精准地操作文件系统和执行命令。

耦合与解耦

有趣的是，虽然 Anthropic 训练了能直接编辑文件的模型能力，但 Claude Code 却使用了完全不同的、在框架层实现的工具集。这说明目前的最佳实践往往是在框架层进行定制。

"The harness is the most important thing... cloud models are great but the harness is really what made that work."

视觉信息描述

视频背景位于旧金山的 Chase Center，两人坐在宽敞的现代场馆内，背后是充满活力的活动现场。这种非正式的对话环境凸显了 AI 社区目前那种"随时随地都在讨论技术前沿"的氛围。

03

现代代理架构（上）：系统提示词与规划

10:11 - 13:14

核心观点

智能体的行为受"标准作业程序（SOP）"驱动，现代架构正从强制性的显式规划转向更灵活的"心理草稿纸"。

深度阐述

系统提示词（System Prompt）

这是代理的灵魂。它类似于人类入职时的 SOP。在现代架构中，这个提示词通常由框架自带的基础指令和用户自定义的 .md 文件组合而成。

规划工具（Planning Tool）

过去：以前需要强制模型分步：第一步做什么，第二步做什么。这在模型变弱时有效，但应对突发情况非常僵化。现在：现代代理更倾向于维护一个"规划文件（Plan.md）"。这是一个动态的任务清单，模型可以随时读写和修改，但执行时更具灵活性。

04

现代代理架构（下）：子代理、文件系统与上下文压缩

13:14 - 22:04

核心观点

解决大模型"上下文焦虑"的关键在于隔离与主动管理：通过子代理隔离风险，通过文件系统外挂记忆，通过工具触发压缩。

深度阐述

子代理（Sub-agents）

这是为了上下文隔离。主代理启动一个拥有全新上下文窗口的子代理，完成后只传回结果。这能有效防止上下文窗口由于冗余信息而"爆炸"。

文件系统（File System）

Harrison 强调，代理需要文件系统不仅是为了存数据，更是为了管理自己的上下文。例如，一个 6 万 token 的搜索结果，系统会先存入文件，只给 LLM 看前 1000 个，让 LLM 自己决定是否要读取剩下的内容。

上下文压缩（Compaction）

传统的压缩是自动触发的（如达到窗口 80% 时）。LangChain 目前正在探索由模型主动触发压缩。如果模型觉得当前话题已结束，它可以调用工具清空不必要的历史，降低延迟并减少干扰。

05

代理记忆系统：短时记忆 vs. 长时记忆

22:04 - 27:48

核心观点

记忆定义了智能体。现代堆栈需要整合语义、情节和程序性记忆，特别是"程序性记忆"让代理能够自我学习。

深度阐述

三种长时记忆

语义记忆（Semantic）：类似 RAG，存储事实性知识。情节记忆（Episodic）：回顾过去的对话和交互历史。程序性记忆（Procedural）：关于"如何做某事"的指令。

动态学习

在 Deep Agents 框架中，指令（Instructions）被存储为文件。这意味着代理在运行过程中可以自行修改这些文件，从而实现"学习如何更好地完成任务"。

企业级编排

Harrison 建议企业不要纠结于"一个大模型管所有"还是"成千上万个小模型"。重点在于积累高质量的行业指令和工具集，无论底层脚手架如何变，这些资产都是永恒的。

06

基础设施层：为何沙箱（Sandbox）是必经之路？

27:48 - 33:35

核心观点

由于代理必将编写和运行代码，安全、隔离的计算沙箱（如 Daytona）正成为 AI 堆栈中不可或缺的底层。

深度阐述

安全博弈

如果将 API Key 直接传给沙箱内的代码，提示词注入（Prompt Injection）可能会让模型泄露密钥。

解决方案

使用沙箱外的代理机制注入密钥。Harrison 指出，开发者目前在"让代理在沙箱内运行"还是"代理从外部调用沙箱工具"之间各占一半比例。

低层稳定性

观测性（Observability）、评估（Eval）和沙箱（Sandbox）是目前堆栈中最稳定的部分，值得长期投入。

07

LangChain 的转型：从抽象库到代理运行时

33:35 - 40:19

核心观点

LangChain 正在自我革命，从早期的"五行代码实现 RAG"转向支持大规模生产的低层原语（LangGraph）。

深度阐述

早期 LangChain

侧重于高度抽象的"Chain"，方便快速上手，但在生产环境中缺乏灵活性。

LangGraph 的诞生

这是一个底层的、无偏见的编排层。它提供持久化执行、流式输出和深度的人机协同能力。

Deep Agents

这是 LangChain 推出的"电池全内置"版 Harness 示例，展示了如何组合提示词、工具、规划和文件系统。

08

开发者指南：在变动中寻找确定性

40:19 - 47:05

核心观点

AI 开发者的真正壁垒在于对业务流程的深度理解（指令）和自研工具，而非对特定框架或模型的依赖。

深度阐述

观测性 Plus+

Harrison 认为 AI 开发最难的点在于"不确定性"。你需要通过 LangSmith 等工具将每一次 Trace（追踪）转化为测试用例，从而实现持续改进。

无代码化趋势

Harrison 宣布推出无代码平台，让非技术人员也能通过 UI 配置代理的提示词、工具和记忆，因为这些才是驱动代理的核心资产。

AI Agent 的范式转移

核心要点

范式转移

长航程代理爆发

代码即代理

环境交互机制

架构原语

记忆系统

深度洞察

智能体的演进：从简单循环到"长航程"代理

核心争鸣：模型 vs. 框架，以及何为"Harness"？

现代代理架构（上）：系统提示词与规划

现代代理架构（下）：子代理、文件系统与上下文压缩

代理记忆系统：短时记忆 vs. 长时记忆

基础设施层：为何沙箱（Sandbox）是必经之路？

LangChain 的转型：从抽象库到代理运行时

开发者指南：在变动中寻找确定性

精华收获

认知改变

核心资产

行动建议

技术预测