从追求模型能力提升,转向构建强大的 Harness(控制架)控制机制,这是决定 AI 智能体能否落地的关键。
2024 年末见证长航程代理的爆发,代码执行能力成为现代代理标配,Claude Code 和 Deep Research 等产品成功验证了这一方向。
每个长航程代理都应该是代码代理,因为代码是模型训练中最优质的数据,且可作为极度通用的工具。
Harness 是模型与环境交互的一套机制,包括工具集、上下文管理、提示词压缩和 UI,比模型选择本身更重要。
四大核心原语:系统提示词、规划工具、子代理和文件系统,构成了现代代理架构的基础。
智能体需要整合语义、情节和程序性记忆,其中程序性记忆让代理能够自我学习和优化。
早期的智能体因模型能力受限而失败,但 2024 年末见证了"长航程代理"的爆发,尤其是代码执行能力成为了现代代理的标配。
Harrison 回忆说,在 ChatGPT 发布之前,LangChain 就已经提出了"在循环中运行 LLM 并调用工具"的想法。然而,早期的 AutoGPT 等项目之所以未能真正商用,是因为当时的模型(如 GPT-3.5)无法在复杂的推理循环中保持稳定性。
2024 年 11、12 月,随着 Claude 3.5 Sonnet 等更强模型的出现,以及开发者对"Harness(控制架)"原语的掌握,我们看到了 Claude Code 和 Deep Research 等产品的成功。
对话式代理(Conversational Agents):侧重低延迟、语音交互,通常只调用一两个简单工具。长航程代理(Long Horizon Agents):这是目前的创新前沿,具备规划、连贯性和深度的代码执行能力。
Harrison 提出了一个重要论断:每一个长航程代理都应该是代码代理。因为代码是模型训练中最优质的数据,且代码可以作为一种极度通用的工具,用来解析文件、进行数学运算或实现复杂的逻辑循环。
"Harness(控制架/马甲)"是目前最重要的差异化来源,它决定了模型如何与环境交互,甚至比模型本身更重要。
Harrison 用通俗的语言解释道,Harness 是模型与其环境交互的一套机制。它包括工具集、上下文管理、提示词压缩和 UI。
他以 Manis 和 Claude Code 为例,指出这些产品的成功不在于它们用了什么特殊的私有模型,而在于它们的"马甲"做得极好。这种马甲让模型能更精准地操作文件系统和执行命令。
有趣的是,虽然 Anthropic 训练了能直接编辑文件的模型能力,但 Claude Code 却使用了完全不同的、在框架层实现的工具集。这说明目前的最佳实践往往是在框架层进行定制。
智能体的行为受"标准作业程序(SOP)"驱动,现代架构正从强制性的显式规划转向更灵活的"心理草稿纸"。
这是代理的灵魂。它类似于人类入职时的 SOP。在现代架构中,这个提示词通常由框架自带的基础指令和用户自定义的 .md 文件组合而成。
过去:以前需要强制模型分步:第一步做什么,第二步做什么。这在模型变弱时有效,但应对突发情况非常僵化。现在:现代代理更倾向于维护一个"规划文件(Plan.md)"。这是一个动态的任务清单,模型可以随时读写和修改,但执行时更具灵活性。
解决大模型"上下文焦虑"的关键在于隔离与主动管理:通过子代理隔离风险,通过文件系统外挂记忆,通过工具触发压缩。
这是为了上下文隔离。主代理启动一个拥有全新上下文窗口的子代理,完成后只传回结果。这能有效防止上下文窗口由于冗余信息而"爆炸"。
Harrison 强调,代理需要文件系统不仅是为了存数据,更是为了管理自己的上下文。例如,一个 6 万 token 的搜索结果,系统会先存入文件,只给 LLM 看前 1000 个,让 LLM 自己决定是否要读取剩下的内容。
传统的压缩是自动触发的(如达到窗口 80% 时)。LangChain 目前正在探索由模型主动触发压缩。如果模型觉得当前话题已结束,它可以调用工具清空不必要的历史,降低延迟并减少干扰。
记忆定义了智能体。现代堆栈需要整合语义、情节和程序性记忆,特别是"程序性记忆"让代理能够自我学习。
语义记忆(Semantic):类似 RAG,存储事实性知识。情节记忆(Episodic):回顾过去的对话和交互历史。程序性记忆(Procedural):关于"如何做某事"的指令。
在 Deep Agents 框架中,指令(Instructions)被存储为文件。这意味着代理在运行过程中可以自行修改这些文件,从而实现"学习如何更好地完成任务"。
Harrison 建议企业不要纠结于"一个大模型管所有"还是"成千上万个小模型"。重点在于积累高质量的行业指令和工具集,无论底层脚手架如何变,这些资产都是永恒的。
由于代理必将编写和运行代码,安全、隔离的计算沙箱(如 Daytona)正成为 AI 堆栈中不可或缺的底层。
如果将 API Key 直接传给沙箱内的代码,提示词注入(Prompt Injection)可能会让模型泄露密钥。
使用沙箱外的代理机制注入密钥。Harrison 指出,开发者目前在"让代理在沙箱内运行"还是"代理从外部调用沙箱工具"之间各占一半比例。
观测性(Observability)、评估(Eval)和沙箱(Sandbox)是目前堆栈中最稳定的部分,值得长期投入。
LangChain 正在自我革命,从早期的"五行代码实现 RAG"转向支持大规模生产的低层原语(LangGraph)。
侧重于高度抽象的"Chain",方便快速上手,但在生产环境中缺乏灵活性。
这是一个底层的、无偏见的编排层。它提供持久化执行、流式输出和深度的人机协同能力。
这是 LangChain 推出的"电池全内置"版 Harness 示例,展示了如何组合提示词、工具、规划和文件系统。
AI 开发者的真正壁垒在于对业务流程的深度理解(指令)和自研工具,而非对特定框架或模型的依赖。
Harrison 认为 AI 开发最难的点在于"不确定性"。你需要通过 LangSmith 等工具将每一次 Trace(追踪)转化为测试用例,从而实现持续改进。
Harrison 宣布推出无代码平台,让非技术人员也能通过 UI 配置代理的提示词、工具和记忆,因为这些才是驱动代理的核心资产。
不要过度关注底座模型。目前的竞争焦点是 Harness(控制架),即如何管理模型的上下文、文件操作和工具调用逻辑。
作为 AI Builder,你最有价值的资产是特定领域的 SOP 指令和定制化工具(Tools)。
为你的代理建立代码执行环境(沙箱);采用上下文隔离策略(如子代理或文件外挂)以应对复杂长任务;建立严密的观测性闭环。
未来的智能体将能够管理自己的内存和上下文压缩,实现真正的自主长航程运行。