OD体育(中国) Anthropic宣告「递归自我提高」时期到来, 全景综述带你一探究竟


近日,Anthropic 发布了一篇激勉平庸暖热的著作《When AI builds itself》。文中表示了极其惊东说念主的里面数据:抑制 2026 年 5 月,Anthropic 越过 80% 的兼并代码已由 Claude 编写,工程师的平素代码产出飙升了 8 倍;更令东说念主瞩主见是,AI 智能体照旧不错自主忽视假定、推论长达数百小时的强化安全实验。
这阐明 AI 已动手展现自主参与下一代模子揣度打算与磨练的后劲,而这种自我提高才气(Self-Improvement),正在成为下一代 AI 发展的要害驱能源。

图 1:大说话模子自我提高 (LLM Self-improvement) 的构想:东说念主类只需启动系统,模子便能够握续改良本身才气。
曩昔,探讨大说话模子(LLMs)的下一步发展时,焦点频频局限于更大的参数范围、海量的数据喂养和极限的算力堆叠。
但是,传统依赖东说念主类监督的磨练范式正渐渐靠近瓶颈:高质料东说念主工标注极其腾贵,民众反馈难以范围化;更致命的是,跟着模子才气的指数级攀升,在高级数学、复杂代码生成和前沿科研推理等任务中,东说念主类的融会畛域,反而成了限制模子进化的天花板。与此同期,跟着智能体技能的教训,模子已展现出自主生成数据、调用用具和推论代码的强劲自动化才气。
这标明,现时的大说话模子已具备主动参与本身迭代的才气,无需再实足依赖东说念主类的监督。这一趋势象征着一种真切的范式弯曲:大说话模子的发展正从被迫给与东说念主类微调与修正转向自主探索与握续进化。
为了解构大说话模子自我提高的底层逻辑,填补系统性酌量的空缺,来自纽约州立大学石溪分校 Zesearch NLP Lab 的 Haoyan Yang、Jiawei Zhou 等东说念主经过快要一年的发愤,最近发布了一篇 113 页、涵盖 500 余篇前沿文件的对于大模子自我提高的全景综述:

GitHub Repo: https://github.com/Zesearch/self-improvement-llm
花样网站: https://zesearch.github.io/self-improvement-llm-website/

图 2:LLM 自我提高系统 (LLM Self-improvement system) 的闭环框架:数据获得、数据筛选、模子优化、推理细化与领悟全程的自动评估。
论文忽视了「LLM 自我提高系统」(LLM Self-Improvement System)这一观念。
比拟已干系于自我演化智能体 (Self-Evovling Agents) 的酌量,这篇论文愈加从模子本身才气启航,暖热模子怎样凭借内在才气驱动系统握续演化,并将曩昔漫衍在数据、磨练、推理和评估中的顺序,整合为一个由模子才气驱动的系统级闭环人命周期。
在这个框架中,自我提高不再是单一算法,而是一套可握续运转的智能系统。论文围绕一个中枢问题张开:如安在不同阶段行使模子本身才气,鼓励握续且自主的改良?
论文将自我提高系统综合为四个中枢关节:数据获得(Data Acquisition)→ 数据筛选(Data Selection)→ 模子优化(Model Optimization)→ 推理细化(Inference Refinement),并由自动评估(Autonomous Evaluation)手脚领悟全程的抑制层。每个关节齐以模子的自动化才气为中枢,使模子能够主动获得数据、筛选样本、优化本身,并在推理中反念念改良。
数据获得(Data Acquisition)

图 3:数据获得 (Data Acquisition) 的三种主要旅途:静态筛选、环境交互与合成生成。
自我提高领先需要源源连接的学习数据。论文将数据获得分为三类:静态筛选 (Static Curation)、环境交互(Environment Interaction)和合成生成(Synthetic Generation)。
静态筛选是从已有语料中挖掘可学习样本;环境交互让模子通过与外部环境交互来主动获得数据;合成生成则进一步让模子我方构造新的磨练数据。跟着这三类方式递进,模子从使用已罕有据走向主动探索致使是自主创造数据。
数据筛选(Data Selection)

图 4:数据筛选(Data Selection)的两类中枢计制:模子开发评分与自符合遴荐。
在数据获得之后,问题转向数据筛选:要点变成当照旧获得到弥散的数据后,判断哪些数据真确有价值。 低质料、重叠或空虚的数据可能放大偏差,致使导致模子崩塌。因此,系统需要筛选出更灵验的数据,参加下一步磨练。
论文将数据筛选顺序分为两类:第一类是模子开发评分(Model-Guided Scoring),即行使模子产生的信号对数据进行打分和过滤,举例置信度、困惑度、梯度或亏空函数;第二类是自符合遴荐(Adaptive Selection),即把数据筛选变成一个可学习的计谋,把柄模子才气和反馈动态更新,遴荐现时最有价值的数据。
模子优化(Model Optimization)

图 5:模子优化 (Model Optimization) 的 GRO 框架,通过生成、奖励与优化轮回鼓励模子才气握续提高。
在数据经过获得和筛选之后,模子优化阶段肃穆将这些数据真确弯曲为模子才气。
作家将这一进程纪念为 GRO 框架,即生成 — 奖励 — 优化(Generation–Reward–Optimization):模子领先基于已罕有据生成反应现时才气的输出,再行使奖励信号判断其质料,并通过磨练更新本身参数,使模子在轮回迭代中握续提高才气。
在这个 GRO 轮回中,生成(Generation) 是来源:模子基于现时才气产生谜底、推理链等。论文将生成方式分为三类:自我探索(Self-Exploratory Generation) 让模子尝试生成多种可能解;精粹生成(Refined Generation) 让模子在驱动输出上反念念和修改;交互式生成(Interactive Generation) 则通过用具、环境或外部反馈约束调遣生成进程。
随后是奖励(Reward) 阶段:系统对生成终局进行自动评估,判断哪些输出值得学习。奖励信号主要包括三类:启发式奖励(Heuristic Reward) 依赖礼貌或肤浅方针,模子奖励(Model-based Reward) 由模子或奖励模子进行打分,可考据奖励(Verifiable Reward) 则通过代码推论、谜底匹配或面孔化检讨等方式提供更可靠的反馈。
临了是优化(Optimization) 阶段:模子行使这些反馈更新本身参数。优化顺序不错分为三类:监督微调(Supervised Fine-Tuning, SFT) 把高质料输出手脚磨练数据,强化学习(Reinforcement Learning, RL) 把柄奖励信号径直优化模子行径,混杂优化(Hybrid Optimization) 则联接 SFT 和 RL:先用高质料数据进行监督学习,再通过奖励信号进一步强化模子发扬。
此外,作家还纪念了三种常见的模子优化范式,它们不错看作 GRO 框架在具体顺序中的不同实例:迭代拒绝采样(Iterative Rejection Sampling)、自我考据与精粹(Self-Verification and Self-Refinement),OD体育(中国)以及自我对弈(Self-Play)。
在迭代拒绝采样中,模子先生成多个候选谜底,再通过礼貌或模子打分筛选高质料样本,临了将这些样本用于监督微调。自我考据与精粹则先生成驱动谜底,再进行自我检讨与修改,临了行使改良后的谜底进行监督微调,或将修改前后的谜底构形成偏好对进行偏好优化,从而提高模子才气。自我对弈通过模子本身或多个模子之间的竞争与合作生成更具挑战性的样本,并借助赢输、偏好或考据信号更新模子。
推理细化(Inference Refinement)

图 6:推理细化 (Inference Refinement) 的四类顺序:解码计谋、推理式增强、智能体系统增强与测试时磨练。
在模子优化之后,自我提高系统还需要洽商另一个问题:模子才气如安在实践推理进程中被进一步提高。
模子优化暖热的是通过磨练更新参数,而推理细化(Inference Refinement)暖热的是:在参数不一定永远调动的情况下,怎样让模子在回复问题时更好地搜索、反念念、调用用具并修原本身输出。
论文将推理细化归纳为四类顺序。第一类是解码计谋(Decoding Strategies),通过采样、树搜索、logit 调遣和成果优化等方式,开发模子生成更可靠的谜底。第二类是推理式增强(Reasoning-based Improvement),让模子在生成进程中加入推论、反馈、反念念和合作推理,从而约束修正中间要领。第三类是智能体系统增强(Agentic System-based Improvement),通过提醒词、用具、操心模块和责任流,把模子放入更竣工的任务系统中提高发扬。第四类是测试时磨练(Test-Time Training),即模子在面对具体问题时,行使现时任务产生的反馈进行临时更新,再生成最终谜底。
这部分的中枢真谛在于,它把自我提高彭胀到推理进程,使系统不仅依赖磨练后的参数更新,也能在具体任务中终了动态改良。这亦然现时「自我演化智能体」酌量最暖热的标的之一:智能体如安在运行时通过方案、反念念、用具调用和环境交互,约束调遣本身行径并提高任务完成才气。
自动评估(Autonomous Evaluation)
2026美加墨世界杯中国官网入口
图 7:自动评估(Autonomous Evaluation)通过动态基准和交互环境评估,握续监控自我提高系统的简直高出。
除了上述四个关节,自我提高系统还需要一个领悟全程的抑制层:自动评估(Autonomous Evaluation)。要是阑珊评估,系统就无法判断本身改良是否简直灵验。作家觉得,评估进程不应只依赖东说念主工检讨或固定测试集,而应能够跟着模子迭代自动更新并提供反馈。
为此,论文强调两类顺序:动态基准(Dynamic Benchmarking) 不错握续生成或更新测试任务,幸免静态基准失效;交互环境评估(Interactive Environment Evaluation) 则让模子在简直或模拟环境中完成任务,并把柄环境反馈自动判断发扬。
通过这种方式,评估不再是闭环末端的一次性打分,而是握续率领系统改良的反馈机制。
风险、应用与异日(Application, Challenge and Future Outlook)

图 8:自我提高系统的六大挑战:数据自噬、反馈信号颓势、优化驱动失败、无效自我精粹、评估瓶颈和监督瓶颈。
自我提高系统具有高大后劲,但也靠近一系列挑战。作家一共纪念了六个要害问题:模子反复学习本身生成的数据,可能带来数据自噬(Data Autophagy);空虚或有偏的反馈会形成反馈信号颓势(Flawed Feedback Signals);磨练和优化进程可能出现优化驱动失败(Optimization-Driven Failures);推理阶段的自我精粹巧合仅仅名义修改,形成无效自我精粹(Ineffective Self-Refinement);此外,评估瓶颈(Evaluation Bottlenecks)和监督瓶颈(Supervision Bottlenecks)也会限制系统的可靠发展。

图 9:自我提高系统的六大应用场景:代码、数学、医疗、金融、算法发现和科学酌量。
与此同期,作家纪念了自我提高系统的六大应用场景,包括代码(Code)、数学(Math)、医疗(Medicine)、金融(Finance)、算法发现(Algorithm)和科学酌量(Science)。这些领域中照旧出现了不少自我提高的应用案例,展现着这一标的的实践价值。
面向异日,作家忽视了自我提高酌量的四大标的:
第一,从模子级优化走向端到端自我提高系统(End-to-End Self-Improving Systems);
第二,发展面向应用的专用自我提高模子(Application-Centric Self-Improved Models);
第三,建立调处基准与自主评估(Unified Benchmarks and Autonomous Evaluation),估量模子是否确实在握续高出;
第四,在自动化与东说念主类监督之间取得均衡(Balancing Automation and Human Oversight),确保系统既能自主进化,又保握安全和可控。
总体来看,这篇论文把自我提高从一组漫衍的技能顺序,提高为一个以模子为主体的系统级闭环框架,通过数据、磨练、推理和评估等关节的协同,使大模子从一次性磨练的居品,渐渐走向能够握续成长的闭环智能系统。
当东说念主类不再总能不绝教模子时,谁来鼓励模子高出?谜底或者是模子我方。
作家先容
第一作家: Haoyan Yang,纽约州立大学石溪分校计较机科学博士生。
个东说念主主页:https://joyyang158.github.io/haoyan-yang/
其他作家:Mario Xerri、Solha Park、Huajian Zhang、Yiyang Feng、Sai Akhil Kogilathota,来自纽约州立大学石溪分校计较机科学系以及数据科学花样
通信作家: Jiawei Zhou,纽约州立大学石溪分校计较机科学系、数据科学花样、应用数学与统计系助理教化。
个东说念主主页:https://joezhouai.comOD体育(中国)

备案号: