okooo澳客APP官方网站

你的位置:okooo澳客APP官方网站 > 竞彩足球 > okooo澳客 Coding Agent失败根源能精确定位了!南大快手建议可回想框架:无需重训,即插即用

okooo澳客 Coding Agent失败根源能精确定位了!南大快手建议可回想框架:无需重训,即插即用

发布日期:2026-04-25 21:56    点击次数:144

okooo澳客 Coding Agent失败根源能精确定位了!南大快手建议可回想框架:无需重训,即插即用

告别"黑箱调试"!能精确定位 AI 代码 Agent 失败根源的可回想框架来了。

跟着 LLM 代码智能体的能力越来越强,但有一个枢纽问题持久莫得被照顾——当这些 Agent 失败时,咱们时时不知说念"它在哪一步出了错"。

现存评测常常只温存最终的得手与失败,却对过程中每一步决策的对错一无所知。

于是来自南京大学 NJU-LINK 实验室刘佳恒老诚课题组、快手科技等机构的参谋者建议了 CodeTracer。

这是一个无需再行试验的轨迹回想框架,可将 Agent 的运管事态调整为层级化情景树,自动定位任务失败的肇端节点,并将生成的会诊信息反应给 Agent ,从而竣事失实归附与履行归附。

以下是更多看重内容。

为什么 AI 代码 Agent 的调试如斯贫苦?

频年来,SWE-Agent、OpenHands 等代码 Agent 已可在真实软件仓库中自主完成破绽确立、代码重构、结尾交互等复杂任务。

但跟着任务复杂度擢升,Agent 的履行轨迹也愈发冗长:一次齐备进程时时包含数百至上千个异构技巧:代码检索、文献读取、逻辑修改、神态构建、测试结尾剖释等。

当 Agent 完成 task 失败时,诱惑者濒临的中枢窘境在于:整条履行链究竟从哪一步启动偏离正轨?

现存评测体系大多仅温存最完毕尾,只隔离得手或失败,忽略了过程中决策的合感性,这导致了三大核肉痛点:

1、失实链掩饰:

Agent 早期的一次失实判断会逐级传导,激励后续连锁失败,最终导致举座任务失败。但缺少技巧级的会诊能力,这条失实链简直无法被回想。

2、无效轮回罗网:

Agent 一朝堕入失实假定,时时会在无真谛操作中反复轮回,耗尽多数 Token 与想到资源,却无法自主纠偏。

3、会诊难以限度化:

现存轨迹分析方法要么仅适用于通俗交互场景,要么依赖东说念主工逐行核查,无法豪爽真实工程中数千条轨迹的限度化分析需求。

其实问题根源在于,现时主流的四大 Agent 框架(SWE-Agent、MiniSWE-Agent、OpenHands、Terminus 2)在想象理念上各别昭彰,架构或轻量极简或重度编排,履行方式支撑串行或并行,但无一具备失败后精确定位失实节点的能力。

而 CodeTracer 恰是为照顾这一共性难题而生。

CodeTracer 是如何责任的?

CodeTracer 的中枢念念路是:把 Agent 运行产生的芜杂日记,调整为结构化的履管事态历史,自动定位失败根因并将会诊信息反应给 Agent,竣事失实修正。

通盘进程分为三个精湛配合的中枢模块:

1、运行日记剖释——进化式提真金不怕火(Extraction Agent)

不同 Agent 框架的日记样子互不兼容,若为每个框架单独诱惑剖释器,不仅治愈资本高,还极易因框架升级、样子变更而失效。

为此,CodeTracer 想象了"探索 - 适配 - 复用"战略:率先自动扫描运行目次,识别日记结构;然后在剖释器注册表中查找匹配的现存剖释器;若无匹配项,则自动生成一个新剖释器并注册入库,供后续同类样子复用。

跟着适配场景不断丰富,系统兼容性连续增强。最终,将种种异构日记合股为程序化技巧纪录,包含动作、不雅测结尾、代码各别、考证结尾等结构化信息。

2、构建履行视图——层级轨迹树(Structuring Agent)

剖释完成后,系统将扁平的履行序列调整为层级轨迹情景树,其枢纽在于隔离两类技巧的实质各别:

探索技巧:

只读取、搜索环境而不修改代码情景,闪现 Agent 仍处于信息探查阶段;

情景变更技巧:

对代码库或履行环境产生现实修改,会触发情景跳转并生成新的子情景节点,象征着 Agent 完成了一次枢纽决策。

每个节点还附加意图与结尾选录,使整棵树成为一个压缩版的导航索引。会诊无需从新逐行阅读原始日记,即可快速定位从哪一次情景变更出现偏差。

3、精确定位与反念念回放(Trace Agent + Reflective Replay)

Trace Agent 沿轨迹树进行遍历检索,输出三项会诊结尾:失败包袱阶段(Failure-Responsible Stage)、失实相干技巧聚合(Error-Relevant Steps),以及复旧会诊论断的精简笔据集(Evidence Set)。

在此基础上,这份会诊信号可动作前置教导注入原 Agent,驱动其在疏导资源敛迹下再行履行任务,即"反念念回放"机制。

值得看重的是,会诊过程中耗尽的 Token 不计入回放预算,保证对比公说念:回放的 Agent 与原始 Agent 领有十足一致的迭代次数与 Token 配额 ,独一的区别是提前获知上一轮的失实节点。

横向对比工业界框架和学术框架

另外,为了更直不雅地展示 CodeTracer 作用,参谋团队还对常用 Agent 框架进行了量化分析。

学术 SOTA 框架对比

关于学术界与工业界平常使用的四大 Agent 框架,从任务得手率与履行资本两个维度看:

数据背后的步履十分明晰:

MiniSWE ‑ Agent

动作极简轻量框架,器具与进程想象精简,以最少技巧和最低 Token 耗尽完成任务,得手率 32.8%。

Terminus 2

在其基础上截至增多编排支拨,Token 耗尽小幅上涨,得手率同步擢升,资本与收益相对匹配。

SWE ‑ Agent

与OpenHands属于分量级框架,两者选定复杂多阶段进程与丰富器具集,Token 耗尽接近 MiniSWE ‑ Agent 的两倍,但得手率仅分别擢升至 37.5% 和 38.3%,比拟轻量框架仅跳动约 5 个百分点。

参谋由此揭示一个枢纽论断:在通用结尾编程任务中,框架复杂度与得手率并非线性相干。

过度复杂的编排想象,时时只带来更长履行链路与更高 Token 资本,却无法带来能力上的实质打破。

决定任务得手率上限的中枢,是底层模子的推理能力,而非框架架构的复杂度。

这一发现关于工程实践具有明确的诱惑真谛:在选定 Agent 框架时,盲目追求复杂架构并不理智。搭配合理模子的轻量框架,即可竣事与分量级框架接近的成果,同期具备显耀的资本上风。

Claude Code 对比分析

参谋团队将 CodeTracer 进一步用于工业级 Agent Claude Code 的轨迹分析,并与学术框架对比,揭示出显耀结构各别:

1、器具生态量级各别:

Claude Code 内置 40 余种专用器具,覆盖 8 大功能类别;而学术框架仅具备 5 – 10 种通用器具,复杂任务下的细粒度操作能力差距昭彰。

2、险阻文照顾的熟习度各别:

Claude Code 内置险阻文压缩、Token 跟踪、功能门控等机制,可复旧更长的有用轨迹;而学术框架广宽缺少此类想象,导致在长轨迹任务中易出现险阻文溢出或信息丢失。

3、探索 - 变更比例的结构各别:

Claude Code 的探索技巧占比显耀更低,单次探索后能产生更多有用情景变更,这一目的与任务得手率高度相干,也印证了笔据调整能力是隔离高效 、与低效 Agent 的中枢目的。

4、并行履行带来的新挑战:

工业 Agent 支撑并行器具调用,履行着力更高,澳客app但也引入了履行步履依赖、偶发失实难复现等问题,这是步履履行的学术框架所不存在的新挑战,亦然工业 Agent 会诊的一浩劫点。

5、工程和模子的拟合:

咱们测试了多种模子,唯有 claude 模子的发扬较为优异(claude sonnet 4.5 52.1% 照顾率)其他模子均和 claude code 框架并不适配,照顾率并不睬想,在泛化性方面和学术框架有较大各别,claude code 的工程想象对模子有作念过异常的优化。

6、榜单标化分数的反念念:

claude code 框架如斯熟习的体系却在 terminal bench 上并莫得取得预期尽头高的分数,跟着对失实样例的分析,terminal bench 一些 task 的想象和现实场景脱离,模子给出了现实照顾问题的有盘算推算却无法投合出题东说念主的意图。

上述对比标明,CodeTracer 的想象可细腻适配工业场景,其技巧级偏差标注还可动作密集试验信号用于工业 Agent 优化试验,但同期框架自身对 claude 模子的行为模式有着强依赖性,工程在模子行为上有着拟合。

深度剖解 Agent 行为:失败是怎样发生的?

除了框架层面的横向对比,参谋团队还借助 CodeTraceBench 的技巧级标注,对 Agent 里面的行为模式进行了深度分析,解释了其失败背后的共性步履。

1、模子各有长处,然而失败模式高度趋同

在 340 类任务中,66 类旧例任务可被一说念五款模子照顾,65 类高难度任务(如神态化考证、高等科学想到)则无一模子能完成。

各模子在专长上各别昭彰:GPT-5 擅长图论与化学任务,Claude-sonnet-4 擅长贝叶斯推断,Kimi-K2-Instruct 凸起于图形渲染,DeepSeek-V3.2 则在数据管说念与包照顾更具上风。

但面对共同无法照顾的难题时,悉数模子的失败行为高度一致:广宽通过执造笔据、占位输出或提前圮绝来掩盖失败,而非坦诚报错。这种失败掩盖行为与模子能力强弱无关,值得高度警惕。

2、失实类型与履行阶段高度相干

通过对每条轨迹按履行阶段,即按环境考证、依赖装置、代码修改、考证等阶段拆解后发现:

早期阶段:

以环境成就、依赖装置为主,问题易被忽略并连续级联扩散;

中后期阶段:

以失实定位、失实假定与考证结尾误读为主,Agent 常定位到可疑代码,但现实修改场地或结尾解读失实。

与此变成对比,得手轨迹进程顺畅、阶段无反复回荡;而失败轨迹则在早期就过度耗尽了 Token,堕入失实假定后的无效轮回。

这一失实的可预测性为分阶段预警、提前阻断失实链提供了可行念念路。

3、得手率在早中期快速宽裕,盲目加迭代毫无真谛

参谋者对 max_iterations 从 5 到 300 进行了全面扫描,覆盖五款模子与三种 Agent。结尾涌现:

迭代至约 35 — 40% 最长长度时,得手率快速上涨;

中后期弧线趋于宽裕,非凡迭代简直不再擢升成果。

得手率上限主要由基本模子推理能力决定,与 Agent 框架想象关系各别并不大,比如 Claude-sonnet-4、GPT-5、DeepSeek-V3.2 均在各自步数达到上限后不再增长。

当 Agent 早期就变成了失实假定,非凡的迭代多数只会空耗资源,并不可校正底层阐述偏差。

这也进一步印证了:在正确的时机提供正确的会诊信号远比给 Agent 更屡次数的契机重试更有价值。

4、中枢过失:探索与行为中的范围

通过对每条轨迹技巧预算的拆解分析,参谋发现了一个贯串悉数模子与框架的枢纽问题——笔据 - 行为范围(Evidence-to-Action Gap):

失败轨迹中无效技巧占比约 40%,接近得手轨迹(22%)的两倍;

正确情景变更技巧从 30% 降至 21%,而探索信息得到能力着落并不昭彰。

这闪现:Agent 失败并非找不到枢纽信息,而是无法将有用笔据调整为正确决策。

这种范围在 Qwen3-Coder-480B 与 Kimi-K2-Instruct 的身上体现得尤为凸起,Claude-sonnet-4 和 GPT-5 则相对更小,闪现更强的基本模子在笔据调整上的上风。

这也恰是 CodeTracer 反念念回放机制的想象初志:Agent 果然需要的不是更多重试契机,而是明晰的失实根因教导。

实验结尾

终末参谋团队在 CodeTraceBench 上,以精确率 P、调回率 R、F1 值及 Token 耗尽为目的,对比了纯 LLM、Mini-CodeTracer 与齐备 CodeTracer 三种定位有盘算推算:

在种种基本模子上,CodeTracer 均大幅优于告成 LLM 基线:F1 分数从 16% – 19% 擢升至 46% – 48%,同期 Token 耗尽昭彰着落。

中枢原因在于其树形结构竣事了笔据聚焦检索,幸免了对全量原始日记的低效遍历。

不同模子的会诊作风各别昭彰:

GPT-5 追求着力,精确率最高(45.0%)且 Token 支拨最低(31.1k);

Claude-sonnet-4 偏向全面检索,调回率最高(54.9%),安妥高严谨度场景;

DeepSeek-V3.2 精度与调回平衡,举座发扬最庄重。

参谋者在 Mini-CodeTracer 基础上平缓类似组件,考证各模块的孤苦孝顺:

加入"进化式提真金不怕火"后,F1 擢升约 9 个百分点;

再加入"树形索引"后,F1 进一步擢升约 18 个百分点,这解释了压缩式层级导航是竣事精确失实定位的枢纽,而非扶植功能。

将 CodeTracer 的定位笔据注入给原始失败的 Agent,在匹配的 Token 预算内再行履行,得到如下结尾:

悉数主干模子的 Pass@1 均有显耀擢升,且会诊 pass 自身的非凡 Token 耗尽仅为 5k – 8k,性价比极高。

这闪现 CodeTracer 的会诊信号大致有用匡助 Agent 修正早期的失实假定,幸免无效重试,将想到资源鸠合在枢纽技巧。

总的来说,CodeTracer 是一个开源、无需试验的代码 Agent 轨迹回想框架。

通过进化式日记提真金不怕火、层级化情景树索引、失败开首自动定位三位一体的想象,系统性照顾了长履行轨迹中 "错在那处、为何失败" 的中枢会诊难题,并通过反念念回放机制,将会诊信息调整为任务性能擢升。

本参谋的中枢孝顺可归纳为三点:

1、建议CodeTracer 框架,比拟告成 LLM 教导基线,F1 分数擢升近 30 个百分点,同期有用镌汰 Token 耗尽;

2、构建CodeTraceBench 评测基准,动作首个技巧级代码轨迹评测集,覆盖 4 种主流框架、5 种主干模子,包含数千条高质地标注轨迹;

3、变成一系列实证洞见,包括框架复杂度与得手率无显耀线性关系、笔据 - 行为范围、失实分散与履行阶段强相干等枢纽步履。

但现时责任仍存在多少局限:轨迹标注仍波及东说念主工判断,对极复杂轨迹的分析存在一定主不雅性;评估基于离线轨迹,未能十足复面前方东说念主机配合场景;反念念回放考证了失实归附的有用性,但尚未变成通用的试验信号生成范式。

瞻望将来,跟着代码 Agent 能力与任务复杂度不断擢升,让模子具备 "自知失败原因" 的能力,将成为鞭策 AI 软件工程走向可靠、可解释的枢纽。

对参谋者而言,CodeTraceBench 提供了前所未有的细粒度评测视角;对工程实践者而言,CodeTracer 的会诊框架则是一个不错即插即用的调试器具。

二者共同为代码 Agent 从 "可用" 走向 "实在"提供了紧迫的底层复旧。

代码说合:https://github.com/NJU-LINK/CodeTracer

论文说合:https://arxiv.org/abs/2604.11641

一键三连「点赞」「转发」「阻止心」

接待在酌量区留住你的倡导!

—  完  —

咱们正在招聘又名眼疾手快、温存 AI 的学术剪辑实习生  � �

感趣味的小伙伴接待温存 � �  了解细目

� � 点亮星标 � �

科技前沿进展逐日见okooo澳客

亚搏体育官方网站 - YABO

上一篇:okooo澳客app 登场15胜4负!库明加两战40分献制胜抢断 斯奈德:他激发全队士气
下一篇:没有了