当前位置:首页 > 知识 > 斯坦福新论文:微调已死,自主上下文当立

斯坦福新论文:微调已死,自主上下文当立

时令 发自 凹非寺
量子位 | 公众号 QbitAI

是斯坦上下时候为传统微调献上挽歌了。

一项全新研究,福新刚刚又给微调致命一击。论文立合川市某某过滤器制造业务部

来自斯坦福大学、微调文当SambaNova Systems公司和加州大学伯克利分校的已死研究人员,在新论文中证明:

依靠上下文工程,自主无需调整任何权重,斯坦上下模型也能不断变聪明。福新



他们提出的论文立方法名为智能体上下文工程ACE

ACE不依赖模型重新训练,微调文当而是已死让上下文自主进化,通过反复生成、自主反思并编辑自己的斯坦上下提示,直至成为一个自我完善的福新合川市某某过滤器制造业务部系统。

在智能体和特定领域的论文立基准测试中,ACE能同时优化离线上下文(如system prompt)和在线上下文(如agent memory),并稳定优于强力基线模型。



下面具体来看。

ACE框架

现在很多AI应用(比如自动处理财务数据的工具、能调用APP的智能助手)都靠 “上下文适配” 来提升能力。

简单来说,就是不给模型改底层参数,而是在输入里加指令、策略或证据,但老方法有两个大问题:

简洁偏置

为了让输入简短,把关键细节丢了。比如只说 “处理财务数据”,却没说 “要按XBRL格式核对数值”,导致模型犯错。

上下文崩溃

反复修改输入时,模型会把之前积累的有用信息越改越短、越改越没用。比如原本有1.8万个token的实用策略,准确率为66.7,改一次就剩122个token,效果却下降到57.1。



ACE就是为了解决这两个问题来的,与将知识压缩为简短摘要或静态指令的方法不同,它将上下文视为不断演化的操作手册,能够随时间不断累积、优化并组织策略。

基于Dynamic Cheatsheet的智能体设计,ACE把模型的 “上下文优化” 拆成分工明确的三个角色。

  • 生成器(Generator):负责生成推理轨迹;
  • 反思器(Reflector):负责从成功和错误中提炼具体见解;
  • 整理器(Curator):负责将这些见解整合到结构化的上下文更新中。



如上图所示,工作流程首先由生成器针对新查询生成推理轨迹,这些轨迹既能呈现有效策略,也会暴露常见错误。

随后,反思器对这些轨迹进行评析,从中提炼出经验教训,并可选择通过多轮迭代加以优化。

接着,整理器将这些经验合成为简洁的增量条目,再经由轻量级的非LLM逻辑,以确定性的方式将其合并至现有上下文中。

由于更新内容被逐项分解并局部化,多个增量得以并行合并,从而实现大规模的批量适应。

此外,ACE还支持多轮次适应机制,即对同一组查询进行反复学习,逐步强化上下文质量。

ACE在两大场景中全面超越基线

实验结果表明,在智能体和财务分析两大场景中,ACE稳定优于Base LLM(无适配)、ICL(少样本演示)、GEPA(主流prompt优化)、Dynamic Cheatsheet(动态备忘单)等方法。

在智能体测试中,研究团队采用的是AppWorld,它是一套自主智能体任务集合,涵盖API理解、代码生成和环境交互。

结果显示,ReAct+ACE相比ReAct+ICL和ReAct+GEPA分别领先12.3%和11.9%,优势显著。这表明,与固定的演示示例或单一优化指令提示相比,结构化、可演进且精细化的上下文能够更有效地促进智能体学习。

这一优势在在线场景中同样得以延续:ACE平均以7.6%的性能提升领先于Dynamic Cheatsheet等现有自适应方法。



在财务分析中,研究者选用FiNER和Formula来测评模型的金融推理能力,其任务依赖可扩展商业报告语言(XBRL)。

  • FiNER要求对XBRL财务文档中的token进行标注,将其归类为139种细粒度实体类型之一,这是在受监管领域进行金融信息抽取的关键步骤。
  • Formula则侧重于从结构化XBRL报告中提取数值,并通过计算回答金融查询,即进行数值推理任务。

在离线环境下,当模型获得训练集中的真实答案作为输入时,ACE以平均10.9%的优势明显超越了ICL、MIPROv2和GEPA。



此外,ACE在降低自适应成本(如尝试次数和token输入/生成的费用)与延迟方面展现出显著优势。

具体而言,在AppWorld的离线自适应任务中,与GEPA相比,ACE将自适应延迟降低了82.3%,并将尝试次数减少了75.1%。

在FiNER的在线自适应场景中,与DC相比,ACE实现了91.5%的自适应延迟降低,并在token输入与生成的相关费用上节省了83.6%。



华人出品

这项研究的两位一作都是华人。



Qizheng Zhang,斯坦福大学计算机科学系四年级博士生。此前在芝加哥大学获得了数学、计算机科学和统计学三个专业的学士学位。

本科期间,他就与Junchen Jiang和Ravi Netravali两位教授合作开展计算机网络研究,专注于面向视频流与分析的网络系统设计。

此外,他还在美国阿贡国家实验室数学与计算机科学部(MCS)和微软研究院实习过。



Changran Hu,本科毕业于清华大学,硕士毕业于加州大学伯克利分校。

20岁时,他就成为了一家AI音乐生成公司DeepMusic的联合创始人,成功获得来自中国顶级企业的1000万美元投资,并与多位中国流行歌手(如周杰伦、李健)建立合作。

随后,他以应用科学家实习生的身份加入微软,并于2021年成为Sambanova Systems研究工程师,随后晋升为技术主管兼经理,主要负责模型后训练与智能体AI相关研发工作。

(责任编辑:探索)

推荐文章
  • OpenAI被扒了个底朝天!

    OpenAI被扒了个底朝天! 一个超过50页,逾万字的交互式报告,揭露了OpenAI从非营利研究实验室演变为营利巨头的全过程。近期,由两大非营利科技监督组织——Midas Project与Tech Oversight Projec ...[详细]
  • 国家防减救灾委针对北京、河北启动国家救灾应急响应

    国家防减救灾委针对北京、河北启动国家救灾应急响应   新京报讯 据应急管理部消息,近日,北京市密云、怀柔等地以及河北省承德、张家口等多地持续强降雨引发严重洪涝灾害。7月28日,国家防灾减灾救灾委员会已针对北京、河北启动国家四级救灾应急响应,并派出工作 ...[详细]
  • 外交部回应泽连斯基批准对华制裁

    外交部回应泽连斯基批准对华制裁   7月28日,外交部发言人郭嘉昆主持例行记者会。  今日俄罗斯记者提问,乌克兰总统泽连斯基上周日27日)表示,他已批准乌克兰国家安全与国防委员会的新制裁,泽连斯基发表声明表示第十八项制裁措施已经生效 ...[详细]
  • 北京怀柔区升级发布暴雨红色预警

    北京怀柔区升级发布暴雨红色预警   怀柔区发布暴雨红色预警:预计,当前至27日02时,怀柔区怀北镇、渤海镇、雁栖镇、九渡河镇、琉璃庙镇6小时累计降雨量可达150毫米以上,可能出现山洪、泥石流、滑坡等次生灾害,低洼地区可能出现积水,请 ...[详细]
  • 北京高考评卷进程过半,孩子们考得如何?评卷点实地探访——

    北京高考评卷进程过半,孩子们考得如何?评卷点实地探访—— 北京2025年高考已落幕目前各科试卷评阅工作正在有序开展阅卷进展如何?阅卷“天团”由谁组成?一份试卷的分数如何“出炉”?考生们的整体表现情况怎么样?快跟随小窗一同前往清华大学和北京大学评卷点实地探访吧 ...[详细]
  • 美国要从俄罗斯手中买岛?俄方回应

    美国要从俄罗斯手中买岛?俄方回应   来源:参考消息  参考消息网7月29日报道 据俄罗斯卫星社7月29日报道,俄罗斯外交部发言人扎哈罗娃就美国拟从俄罗斯手中购买科曼多尔群岛一事向卫星社表示,无论从法律还是良心上说,出卖祖国都是一种可 ...[详细]
  • 泰国代理总理抵达马来西亚 将与柬方磋商边境冲突

    泰国代理总理抵达马来西亚 将与柬方磋商边境冲突 △普坦抵达马来西亚  当地时间28日,泰国代理总理普坦抵达马来西亚。  当日下午,普坦将与柬埔寨首相洪玛奈在马来西亚总理官邸举行会谈,讨论边境冲突问题。此次会议由东盟轮值主席国马来西亚总理安瓦尔主持。 ...[详细]
  • 北京怀柔区升级发布暴雨红色预警

    北京怀柔区升级发布暴雨红色预警   怀柔区发布暴雨红色预警:预计,当前至27日02时,怀柔区怀北镇、渤海镇、雁栖镇、九渡河镇、琉璃庙镇6小时累计降雨量可达150毫米以上,可能出现山洪、泥石流、滑坡等次生灾害,低洼地区可能出现积水,请 ...[详细]
  • 第1现场|卫星对比图:伊朗核设施及军事设施受损多严重?

    第1现场|卫星对比图:伊朗核设施及军事设施受损多严重? 以伊冲突进入第六天,双方互袭愈演愈烈。自6月13日凌晨以来,以色列持续大规模空袭伊朗数十个军事目标与核设施。伊朗当晚发起反击。此后,双方持续相互空袭,局势骤然升温。但对于伊朗核设施受损程度,伊以双方说 ...[详细]
  • 特斯拉将在旧金山湾区推出Robotaxi服务?监管机构:尚未获准

    特斯拉将在旧金山湾区推出Robotaxi服务?监管机构:尚未获准 财联社7月27日讯编辑 牛占林)美国加州公用事业委员会(CPUC)当地时间周五证实,特斯拉公司尚未申请必要的许可证来运营无人驾驶出租车(Robotaxi)服务。这一决定实质上叫停了特斯拉最早于本周末在 ...[详细]