斯坦福和MIT的全面全新研究團隊推出了一種新的AI智能體推理框架ReCAP,在長上下文任務中全面超越了現(xiàn)有的戰(zhàn)勝智主流框架ReAct,性能提升顯著。斯升ReCAP通過獨特的坦福體推遞歸樹結(jié)構和三大機制,解決了大語言模型在復雜任務中常見的理框目標漂移、上下文斷層和成本爆炸等問題。架性在多項基準測試中,全面全新ReCAP均取得了大幅領先的戰(zhàn)勝智成績,展現(xiàn)出強大的斯升通用性和穩(wěn)定性。盡管計算成本略有增加,坦福體推但其在關鍵任務中的理框表現(xiàn)使其成為極具潛力的新一代通用推理架構。
自2022年ReAct框架提出以來,架性AI智能體推理領域便進入了百家爭鳴的全面全新時代,各種復雜架構如雨后春筍般涌現(xiàn)。戰(zhàn)勝智
然而,斯升這些架構大多曇花一現(xiàn),因其復雜的結(jié)構導致在更換評測基準時需要大幅修改示例,表現(xiàn)遠不如ReAct穩(wěn)定泛用,這也使得ReAct在過去三年中,成為了該領域事實上的主流與標桿。
但是,我們真的不能再做得更好了嗎?
面對大模型在長上下文任務中走幾步就忘的短期記憶頑疾,業(yè)界是否只能止步于此?
來自斯坦福大學與MIT的研究團隊給出了肯定答案,正式發(fā)布的AI Agent推理新框架——ReCAP(遞歸上下文感知推理與規(guī)劃),從真正意義上統(tǒng)一了序列推理和層級推理,在多種任務中全面戰(zhàn)勝了ReAct,且繼承了ReAct示例簡單、高通用性,和即插即用的優(yōu)勢。
在嚴格遵循 pass@1(一次通過)的評測原則下,ReCAP在長序列具身任務Robotouille上相比ReAct基線取得了84.2%(同步)和112.5%(異步)的巨大性能提升。
長上下文任務的三大「死穴」
團隊指出,當今大語言模型在執(zhí)行復雜任務時普遍有三種問題:
目標漂移(Goal Drift):執(zhí)行幾步后就逐漸忽略了原本的目標,使得執(zhí)行結(jié)果與期望不符。
上下文斷層(Context Loss):高層的規(guī)劃信息在長序列執(zhí)行中丟失,導致高層思考與低層執(zhí)行不協(xié)調(diào)。
成本爆炸(Prompt Explosion):每次遞歸都重新鋪開上下文示例和提示詞,推理成本指數(shù)增長。
簡單說,LLM就像一個短期記憶型天才,而主流推理框架各有局限:
序列推理(例如Chain of Thoughts,ReAct)雖然上下文連貫,但常常因為任務太長導致目標漂移;
層級推理(例如ADaPT,THREAD)將任務分解為子任務來明確目標,但給子任務單獨分配上下文示例和提示詞,導致上下文斷層和成本爆炸。
ReCAP
讓序列推理和層級推理有機結(jié)合
ReCAP的核心在于將一個有記憶、有反饋的遞歸樹結(jié)構作為模型的工作記憶區(qū),其三大機制環(huán)環(huán)相扣:
計劃前瞻分解(Recursive Task Decomposition with Plan-Ahead):模型首先生成一個完整的子任務列表,但只執(zhí)行第一個子任務,完成后再動態(tài)優(yōu)化后續(xù)計劃。
結(jié)構化父任務再注入(Consistent Multi-level Context and Structured Injection):整個執(zhí)行流程只有一個上下文,由所有任務共享。每次子任務遞歸返回時,父任務會將自身的思考和計劃再次注入上下文,使父任務在重新計劃時可以參考上次的思維和執(zhí)行結(jié)果,規(guī)劃出能真正達成任務目標的底層操作。
滑動窗口記憶(Sliding Window and Scalable Memory Efficiency):通過滑動窗口機制,在統(tǒng)一上下文中只保留最新關鍵歷史,實現(xiàn)了內(nèi)存占用可控的深度遞歸,從根本上杜絕了成本爆炸。
實驗結(jié)果
長上下文任務性能大幅躍升
團隊在多個典型長上下文推理基準上驗證了ReCAP的效果。結(jié)果令人矚目:
在Robotouille(同步)上取得70%成功率,較ReAct(38%)提升84.2%
在Robotouille(異步)上取得53%成功率,較ReAct(24%)提升112.5%
在ALFWorld上取得91%成功率,穩(wěn)定優(yōu)于ReAct(84%)
在SWE-bench Verified取得44.8%的成功率,優(yōu)于ReAct基線(39.58%)
值得注意的是,團隊在實驗中始終秉持pass@1的實驗原則,即不使用樣本層面的重試、多數(shù)投票或者束搜索。這意味著ReCAP能在真實多步環(huán)境中,更好地保持目標一致性與執(zhí)行連貫性——不僅「想得對」,還能「做得穩(wěn)」。
ReCAP是除ReAct之外,又一個能夠在具身推理、以及代碼編輯這兩種截然不同的任務上都取得穩(wěn)健表現(xiàn)的通用推理架構。
論文中排除了THREAD、Reflexion等其他基線,因其在實驗設置中難以穩(wěn)定復現(xiàn)或與 pass@1 協(xié)議不兼容,這進一步凸顯了ReCAP作為新一代通用推理基線的潛力。
優(yōu)勢與成本的權衡
任何強大的能力都伴隨著成本。團隊對此進行了透明分析:ReCAP的總計算成本約為ReAct的三倍。這主要來自于其核心的計劃前瞻分解機制所額外需要的LLM調(diào)用。
然而,考慮到其在關鍵任務上帶來的性能巨幅提升與目標一致性,這種成本的增加在對準確性要求高的實際應用中是可以接受的。這為開發(fā)者提供了一個清晰的性價比權衡選項。
遞歸,是通往通用智能的鑰匙?
從人類思維到圖靈機,遞歸始終是智能的底層邏輯。ReCAP的提出,可視為AI邁向通用推理系統(tǒng)的關鍵一步。
其潛力遠不止于論文所驗證的任務范疇。任何依賴復雜決策回路與長期上下文記憶的大型任務,都是ReCAP的理想應用場景。
例如在深度研究中自主遍歷文獻、整合多源信息并生成洞察報告;或在復雜軟件工程中管理龐大代碼庫與依賴關系,推進需多步驗證的系統(tǒng)項目。
長遠來看,ReCAP的遞歸規(guī)劃能力可以與空間智能相結(jié)合,解決更為復雜的現(xiàn)實世界問題。李飛飛教授近日指出,空間智能——即理解、推理并與三維世界交互的能力,是AI的下一個前沿。
ReCAP可以為具身智能機器人規(guī)劃復雜的長期任務序列,而空間智能模型則負責處理實時感知與動作控制,二者結(jié)合實現(xiàn)機器人在動態(tài)環(huán)境中的自主規(guī)劃與可靠執(zhí)行。
隨著代碼的開源,一個更擅長長期規(guī)劃、穩(wěn)健執(zhí)行的AI時代或許即將到來。
作者介紹
共同一作 Zhenyu Zhang, Tianyi Chen, Weiran Xu 均為斯坦福大學工程學院計算機系碩士研究生
Alex Pentland教授,麻省理工學院媒體實驗室 創(chuàng)始人之一,美國國家工程院院士,Toshiba Professor at MIT,斯坦福大學 HAI Fellow。
Jiaxin Pei博士,斯坦福大學博士后研究員,研究興趣集中在大語言模型、人機交互、Agentic AI,即將前往得克薩斯大學奧斯汀分校任教。


相關文章




精彩導讀
熱門資訊
關注我們