事实上ღ✿★,DeepSeek-R1模型本身具有强大的基础模型ღ✿★,为其在推理能力上的提升提供了保障ღ✿★。
今年年初ღ✿★,DeepSeek发布DeepSeek-R1模型ღ✿★,引发全球的关注ღ✿★。在公开评测中ღ✿★,它的综合能力逼近当时的顶尖大模型ღ✿★,尤其在逻辑推理和数学题上展现出强劲性能ღ✿★,而且它的成本要远低于作比较的其他大模型ღ✿★。
更令圈内研究者惊喜的ღ✿★,是它在训练方式上的简化ღ✿★。以往的模型在提升推理能力时ღ✿★,通常依赖于把监督微调(SFT)这个环节ღ✿★。在这个阶段ღ✿★,研究人员会使用大量已标注的数据对预训练的AI模型进行进一步训练ღ✿★。这些数据包含了问题及其对应的正确答案ღ✿★,以及如何建立思考步骤的范例ღ✿★。靠着这些模仿人类思维的“例题”和“答案”ღ✿★,大模型得以提升推理能力ღ✿★。
DeepSeek-R1的报告中ღ✿★,展示了名为DeepSeek-R1-Zero的路线ღ✿★,它跳过了复杂的监督微调ღ✿★,直接在DeepSeek-V3的基础上进行强化学习训练ღ✿★。这一次ღ✿★,模型没有例题示范金宝搏app下载ღ✿★,只通过简单的答题反馈来学习ღ✿★:答对加分ღ✿★,答错减分ღ✿★,用简单的方法显著的推理能力提升ღ✿★。这个被简称为“纯强化学习”的方法ღ✿★,成为了复现和跟进研究中的热门对象ღ✿★。
在复现的热潮中研究者们意识到ღ✿★,一些关键问题仍有待厘清ღ✿★。到底是训练的哪些环节带来了模型推理能力的提升?DeepSeek-R1的能力究竟来自训练方式的改变ღ✿★,还是基础模型DeepSeek-V3本身的强大?如果关键在于强化学习ღ✿★,这种方式可以在迁移到其他模型训练上吗?
正是围绕这些问题ღ✿★,一些团队启动了对DeepSeek-R1复现与跟进研究ღ✿★。DeepSeek-R1虽然开源了模型权重ღ✿★,但关键的训练数据和完整算法实现并未公开ღ✿★。想要真正理解和重现其能力ღ✿★,就必须从论文出发ღ✿★,复刻训练流程ღ✿★。对跟进的研究者而言ღ✿★,复现和跟进研究的意义不止是复制一个模型ღ✿★,更是拆解这套训练方法ღ✿★,厘清模型性能提升的真正来源ღ✿★。
《知识分子》和Open-Reasoner-Zero团队成员胡倞成ღ✿★、韩琦ღ✿★,Light-R1团队成员邹昊晟ღ✿★,新加坡国立大学ღ✿★、Sea AI Lab研究人员刘梓辰ღ✿★,以及个人复现者许书尧都聊了聊ღ✿★,试图回答以上一些问题ღ✿★。
Open-Reasoner-Zero团队在基础模型上直接进行强化学习ღ✿★,观察到了模型验证分数的显著提升ღ✿★,验证了DeepSeek-R1-Zero训练方法的有效性[1]ღ✿★,个人复现者许书尧也在一个相对小的模型上验证了类似的现象[2]ღ✿★,Light-R1团队把模型放在AIME上测试成绩ღ✿★,提升到了接近完整DeepSeek-R1的水准ღ✿★,并且也成功复现了强化学习的方法[3]ღ✿★,刘梓辰的验证工作则是从怀疑开始的ღ✿★,他发现模型推理能力的提升ღ✿★,与所选用的基础模型之间存在密切关联[4]ღ✿★。
去年ღ✿★,OpenAI推出的o1推理模型在数学和推理任务中的表现远远好于其他同参数量级的主流模型ღ✿★,在GSM8Kღ✿★、MATH等多个基准测试中一度拉开了显著差距ღ✿★。但由于官方几乎未公布训练细节ღ✿★,模型是如何获得这类能力的ღ✿★,一度成为业内谜题ღ✿★。OpenAI o1的出现ღ✿★,使得“推理模型”这一新方向引发关注ღ✿★。
一种流行的猜测是ღ✿★,o1的推理能力来自OpenAI内部某个更大的模型ღ✿★,o1只是它训练出的精简版本金宝搏app下载ღ✿★。另一种看法是ღ✿★,OpenAI在训练中使用了更复杂的技术路线ღ✿★。这些方案都出于同一方向的判断ღ✿★:做出顶尖推理模型需要堆更多的资源ღ✿★。
DeepSeek-R1的发布打破了这些猜想ღ✿★。它没有使用这些复杂手段ღ✿★,仅凭简单的强化学习奖励设置ღ✿★,就让模型在推理能力上达到与o1接近的水准ღ✿★。
在DeepSeek-R1之前ღ✿★,也有研究者尝试过用纯强化学习训练推理模型ღ✿★,但大多停留在小规模的实验阶段ღ✿★。这种迟疑来自两个方面ღ✿★,“一是从技术直觉上ღ✿★,大家普遍不认为这样简单的方法能奏效ღ✿★;另一个是如果基础模型不够强ღ✿★,这么简单的方法可能真的不奏效”ღ✿★,许书尧说ღ✿★。
许书尧介绍ღ✿★,大约在一年前ღ✿★,不少关于推理模型训练的论文中已经加入了强化学习这一步ღ✿★,也有人尝试基于模型的答题结果直接设计奖励ღ✿★。但在当时ღ✿★,业内普遍不相信仅靠简单的答题反馈ღ✿★,就能训练出接近o1水平的推理模型的推理能力ღ✿★。“纯强化学习大家一直有尝试ღ✿★,但没人真正扩展到大模型上ღ✿★。那时候大家不觉得光让模型做题就够了”ღ✿★。
邹昊晟也提到ღ✿★,在今年DeepSeek-R1和Kimi 1.5出现之前ღ✿★,几乎没有人认为“纯强化学习”能真正提升大模型的推理能力ღ✿★。彼时更主流的看法是ღ✿★,推理能力的提高可能依赖蒙特卡洛树搜索(MCTS)或过程奖励模型(PRM)ღ✿★。
对于大模型而言ღ✿★,某种方法是否仍然有效ღ✿★,往往要看它能否经受住规模扩展的考验ღ✿★。在当时看来ღ✿★,纯强化学习的前景ღ✿★,并不如蒙特卡洛树搜索(MCTS)或过程奖励模型(PRM)更被看好ღ✿★。
MCTS是一种曾在AlphaGo中取得成功的策略ღ✿★,依靠将问题拆解为若干步骤并通过多轮搜索引导模型学习ღ✿★。在DeepSeek-R1的报告中ღ✿★,团队尝试了类似方向ღ✿★,但发现当模型规模扩大后ღ✿★,搜索空间呈指数增长ღ✿★,后续训练很困难ღ✿★。
PRM则是让模型生成对每个推理步骤的评价和打分ღ✿★,逐步判断答案的准确性ღ✿★,从而提升模型的推理能力ღ✿★。许书尧曾经投入了很多精力在这个方向ღ✿★,但在他看来这种系统太过复杂ღ✿★,很难扩大规模ღ✿★。
最终ღ✿★,还是“纯强化学习”先走通了这条路ღ✿★。深度学习教给大家一件事情ღ✿★,往往是简单的方法ღ✿★,在规模扩大的时候更稳健ღ✿★。
不过ღ✿★,DeepSeek的率先成功ღ✿★,并不是一个只靠选对技术路线就能成功的励志故事ღ✿★。它更像是在一系列关键因素同时就位后ღ✿★,才能实现的成就ღ✿★。
许书尧介绍ღ✿★,早期的基础模型预训练阶段数据质量参差不齐ღ✿★,导致模型缺乏稳定的指令遵循能力ღ✿★。而一些更晚期的基础模型则引入了“退火”步骤ღ✿★,在预训练中分阶段加入更高质量的数据ღ✿★,逐步提高模型理解与执行复杂任务的能力ღ✿★。也正是在这些打好地基的工作之后ღ✿★,强化学习的效果才能充分显现ღ✿★。
新加坡国立大学Sea AI Lab研究人员刘梓辰表示ღ✿★,类似DeepSeek-R1的尝试其实已有先例ღ✿★。比如2024年底ღ✿★,AI2(Allen Institute for AI)推出的Tülu 3模型ღ✿★,就在数学任务中引入了强化学习方法ღ✿★,并采用了“可验证奖励”的机制ღ✿★。只有当模型答案正确时ღ✿★,才给予奖励ღ✿★。从这个角度看ღ✿★,DeepSeek的训练思路ღ✿★,Tülu 3已经部分尝试过了ღ✿★。
但最终ღ✿★,Tülu 3的表现不如DeepSeek-R1亮眼ღ✿★,刘梓辰认为问题在于两方面ღ✿★。一是基础模型的选择ღ✿★,Tülu 3是基于Llama训练的ღ✿★,它在数学方面强化学习的效果可能不如其他模型狂野小农民二狗电视剧在线观看ღ✿★。二是模型体量差异ღ✿★,Tülu 3的最大版本为70Bღ✿★,而DeepSeek-R1则是在自家600B级别的DeepSeek-V3模型上完成训练的ღ✿★。这一差距极大影响了强化学习的上限ღ✿★。
从数据层面看ღ✿★,许书尧指出ღ✿★,DeepSeek-R1在后训练阶段还使用了约80万条高质量样本进行微调ღ✿★。这类数据不仅数量庞大ღ✿★,而且质量要求很高ღ✿★,如果出现错误很容易导致强化学习训练的崩溃ღ✿★。对大多数小团队而言ღ✿★,单是获取ღ✿★、筛选并清洗出这样规模和质量的数据ღ✿★,都很困难ღ✿★。
“在那个时间点ღ✿★,除了Google和其他几家积累深厚的巨头ღ✿★,可能真没有其他团队能做出这样的成果ღ✿★。”刘梓辰说ღ✿★。DeepSeek手上有强大的基础模型ღ✿★,还具备调优这类模型的经验和资源ღ✿★,DeepSeekV3作为模型本身一定也经过了高质量ღ✿★、清洗过的数据进行预训练ღ✿★,才能在强化学习后得到提升ღ✿★。即使其他团队掌握相似的方法ღ✿★、具备工程能力ღ✿★,如果出发点模型存在差距ღ✿★,也很难达到类似效果ღ✿★。
胡倞成认为ღ✿★,整个行业的推进速度本就非常惊人ღ✿★。即使没有DeepSeekღ✿★,其他团队也在逐渐接近OpenAI o1级别的推理模型ღ✿★,也许再过几个月ღ✿★,就会有其他方案浮出水面ღ✿★。
但DeepSeek的成功仍然关键ღ✿★。在方法层面ღ✿★,它验证了通过强化学习提升推理能力的路径确实可行ღ✿★。更重要的是ღ✿★,它验证了这条路的可行性ღ✿★。“在R1之前ღ✿★,大家并没有真正做出一个能给自己信心的东西ღ✿★。这件事到底能不能做成ღ✿★,能做成什么样?即使有了思路方向ღ✿★,很多团队心里也没有底狂野小农民二狗电视剧在线观看ღ✿★。DeepSeek-R1的出现ღ✿★,给我们做研究的人以信心ღ✿★,证明这条路是能走得通的ღ✿★,”胡倞成说ღ✿★。
在对DeepSeek-R1的后续研究中ღ✿★,一种观点逐渐受到关注ღ✿★。部分研究者认为ღ✿★,模型反思能力的提升ღ✿★,并非完全源自强化学习过程ღ✿★,而是基础模型自身能力的体现狂野小农民二狗电视剧在线观看ღ✿★。
刘梓辰支持这种观点ღ✿★。他尝试复刻DeepSeek-R1的“顿悟时刻(Aha moment)”ღ✿★,按照DeepSeek-R1的报告ღ✿★,这是描述训练中模型在面对特定难题时ღ✿★,展现了自我反思的能力ღ✿★,主动重新评估初始解法ღ✿★,并投入更多思考时间以寻求更优答案ღ✿★。
这一能力对推理模型非常关键ღ✿★。在推理模型出现之前ღ✿★,大模型主要依赖预训练阶段扩大参数规模来提升表现ღ✿★,但增长已经逐渐趋缓ღ✿★。在一些需要严密逻辑链条的任务中ღ✿★,比如数学推理ღ✿★,模型即便读过再多语料ღ✿★,依然难以获得实质突破ღ✿★。一个关键的瓶颈是它们缺乏自主修正回答的能力ღ✿★。
而OpenAI o1的成功提供了一个重要线索ღ✿★,如果模型拥有更长的“思考时间”ღ✿★,它的解题准确率就会显著提高ღ✿★。
为什么“长”如此关键?胡倞成解释ღ✿★,Transformer 计算深度有限ღ✿★,只能做有限步的计算ღ✿★,复杂问题如果不能拆分ღ✿★,就超出了模型的处理能力ღ✿★。只有当模型学会将问题拆解成多个 token逐步向前推进ღ✿★,才可能完成更深层的计算ღ✿★。如果不能把思考过程拉长ღ✿★,模型就没法把一些复杂的计算拆解成自己能够解决的问题ღ✿★。
张胤民补充ღ✿★,这就像我们能快速心算几位数乘法ღ✿★,但遇到更复杂的数字ღ✿★,就需要写在纸上分步完成金宝搏app下载ღ✿★。模型也是如此ღ✿★,新的推理范式相当于教会了模型如何利用更长的“思考时间”或更多的“计算步骤”ღ✿★。一旦模型学会了这种利用时间来分解和解决复杂问题的方法ღ✿★,它就能解锁更多以前无法完成的任务金宝搏app下载ღ✿★。
当模型说出“让我再想想”这样的语言狂野小农民二狗电视剧在线观看ღ✿★,其实正是它利用更长“思考时间”的一种外在体现ღ✿★,是它能力的具象化ღ✿★。比如ღ✿★,模型发现前面的回答有误ღ✿★,然后进行纠正ღ✿★,这就是在利用“时间”来优化结果ღ✿★。将一个复杂问题拆分成多个步骤来解答ღ✿★,也是一种利用“时间”的表现ღ✿★。所谓“顿悟时刻”ღ✿★,就是指模型在没有明确教导下ღ✿★,自发学会了这些利用时间和计算资源的方法ღ✿★。
胡倞成认为ღ✿★,这种反思能力突破了原有建模方式上的本质限制ღ✿★。杨立昆很早就断言自回归大语言模型注定要失败ღ✿★,理由之一就是错误会累计ღ✿★。连续生成1000个tokenღ✿★,只要每一步有千分之一的出错概率金宝搏app下载ღ✿★,最后出错的可能就非常高ღ✿★。这种批评指出的关键问题ღ✿★,就是大模型没法自主修正生成过程中产生的错误ღ✿★。而大模型而具备反思能力后ღ✿★,模型就像获得了一块“橡皮擦”ღ✿★,可以对生成内容进行审视ღ✿★、重写ღ✿★,甚至主动改变推理路径ღ✿★。
也正因这类能力在推理模型中至关重要ღ✿★,DeepSeek-R1在训练中首次出现“顿悟时刻”时ღ✿★,才引发团队的兴奋ღ✿★,并在业界引起关注ღ✿★。DeepSeek在报告中形容那一刻是“见证了强化学习力量的美妙”ღ✿★。
但刘梓辰的研究发现ღ✿★,早在强化学习阶段开始之前ღ✿★,部分基础模型的回答中就已经出现了浅层的自我反思倾向ღ✿★,“顿悟”可能并非像宣称的那样ღ✿★,是模型强化学习过程中自然涌现出来的ღ✿★,而是基础模型本身具备的能力ღ✿★。其中ღ✿★,Qwen2.5系列模型的反思行为最为明显ღ✿★,有趣的是金宝搏app下载ღ✿★,目前大多数复现工作ღ✿★,恰恰都是基于Qwen2.5展开ღ✿★。
邹昊晟认为ღ✿★,预训练模型本身就已经具备某种程度的反思能力ღ✿★。大模型的预训练往往涉及几十万亿个tokenღ✿★,在如此海量的语料中ღ✿★,出现少量带有反思倾向的文本很有可能ღ✿★。在这种背景下ღ✿★,模型说出“我需要再想想”并不令人意外ღ✿★。强化学习的作用ღ✿★,可能更多在于让这些原本零散的表达更频繁ღ✿★、更清晰地浮现出来ღ✿★。
胡倞成表示ღ✿★,强化学习本身更像是一种“催化剂”或者“放大器”ღ✿★。它能够将模型在预训练阶段学到的潜在知识和能力ღ✿★,通过特定的激励和目标引导出来ღ✿★,让它在某些任务上表现更好ღ✿★。
至于不同模型的能力差别ღ✿★,训练早期是否广泛接触具有因果链条ღ✿★、逻辑关系和复杂推理结构的文本ღ✿★,将在很大程度上决定其在后续的强化学习阶段能否发展出相应的能力ღ✿★。除了语料组成ღ✿★,架构和训练策略也同样关键ღ✿★。尽管主流模型大多基于 Transformerღ✿★,微小的结构差异或超参数设置的不同ღ✿★,仍然会影响模型最终在推理上的表现ღ✿★。
刘梓辰用“读书”和“做题”的关系来解释基础模型与强化学习之间的关联ღ✿★。预训练阶段的模型就像读过大量书籍ღ✿★,博览群书ღ✿★,但还不太会做题ღ✿★。强化学习则像是发给它一叠卷子反复练习ღ✿★,没有加入新的知识内容ღ✿★,但确实提高了它的做题能力ღ✿★。两者之间关系微妙ღ✿★,“做题能力还是建立在它读过的书上ღ✿★,不能说光靠做题就能达到这个水平ღ✿★,但不练这几道题ღ✿★,它又确实不会做”ღ✿★。
即使基础模型有着反思能力的潜质ღ✿★,但强化学习把这种能力稳定地激发了出来ღ✿★,这也是一个关键的进步ღ✿★。“如果一个智商180的天才儿童不会说话ღ✿★,有个老师教会了他ღ✿★,展现出了智商180的表达能力ღ✿★,你觉得这个老师有没有水平?”胡倞成反问ღ✿★。
在DeepSeek-R1的跟进研究中ღ✿★,一批聚焦于“超低成本”提升模型能力的研究迅速引发关注ღ✿★。
在一些媒体报道中ღ✿★,被称为“花费仅50美元复现 DeepSeek-R1”的斯坦福大学 S1-32B 模型ღ✿★。仅使用1000条精选数据的情况下ღ✿★,就显著提升了数学与推理能力ღ✿★。
上海交通大学的 LIMO(Less Is More for Reasoning)提出ღ✿★,利用经过精心挑选的817条训练样本ღ✿★,通过简单的监督微调ღ✿★,就能让模型在多个数学任务中表现出色ღ✿★。在AIME24测试中ღ✿★,LIMO将准确率从传统模型(如 Numina-Math)的6.5%提升至57.1%ღ✿★,甚至超过了一些使用数十万条数据训练的主流模型ღ✿★。
张胤民解释ღ✿★,这一方面是由于高质量数据能提供更清晰ღ✿★、更直接的信号ღ✿★,帮助模型快速抓住关键模式ღ✿★,避免在无关或噪声信息上浪费学习能力ღ✿★。另一方面ღ✿★,在对齐阶段ღ✿★,用少量但精准的优质数据进行策略优化ღ✿★,能更有效地引导模型向期望的行为靠拢ღ✿★。这个过程类似做题ღ✿★,与其做一百道质量不一的题目ღ✿★,不如精做十道包含核心考点狂野小农民二狗电视剧在线观看ღ✿★、能引发深度思考的经典例题ღ✿★。
既然用少量精心设计的数据监督学习(蒸馏)ღ✿★,就能让模型展现出一定的推理能力ღ✿★,传统上用数万甚至十万级别样本进行训练的做法是不是没有必要?
对此邹昊晟表示ღ✿★,少量高质量数据的确可以唤起模型已有的推理潜力ღ✿★,帮助它模仿出“会思考”的行为ღ✿★。但若要获得真正稳定且高水平的表现ღ✿★,依然离不开更大规模的数据支撑ღ✿★。
以AIME评测为例ღ✿★,像LIMO和S1这类使用小规模数据蒸馏训练的模型ღ✿★,尽管性能有明显提升ღ✿★,但与DeepSeek蒸馏得到的Qwen-32B模型仍存在不小差距ღ✿★。得分更高的OpenThinker-32Bღ✿★,背后依托的是一个包含11万条样本的大型数据集ღ✿★。Light-R1团队也是在训练中先使用了约7万至8万条样本ღ✿★,再从中精挑出3000条更具挑战性的数据进行进一步训练ღ✿★。
他解释ღ✿★,很多对于DeepSeek-R1低成本复现的报道ღ✿★,提到的只是训练过程的成本ღ✿★,而获取数据也是有成本的ღ✿★。要蒸馏一个模型首先要部署它ღ✿★,再花费算力收集数据ღ✿★。有了数据ღ✿★,后面SFT的步骤的成本没有那么高ღ✿★。
对DeepSeek-R1-Zero训练方法ღ✿★,邹昊晟的评价是“美”ღ✿★。他曾认为ღ✿★,大模型不适合MCTS加 PRM的后训练方法ღ✿★,它们不够优雅简洁ღ✿★。 DeepSeek的方法恰恰抛弃了MCTSღ✿★,仅使用ORMღ✿★,在技术报告中ღ✿★,在DeepSeek-R1-Zero的响应长度和验证分数同时增加ღ✿★,形成一条“完美的曲线”ღ✿★。
但实际上ღ✿★,后续出现大量的推理模型没有使用这种极具美感训练方式ღ✿★,蒸馏反而成了主导ღ✿★。一个关键原因在于ღ✿★,DeepSeek-R1开放了它的CoT(Chain-of-Thoughtღ✿★,思维链)数据后ღ✿★,训练推理模型已经有了一条捷径ღ✿★。
在大模型的训练流程中ღ✿★,SFT是后训练的关键步骤之一ღ✿★。具体做法是ღ✿★,研究者准备一批高质量的人工标注数据ღ✿★,其中不仅包含问题和答案ღ✿★,还包含推理过程ღ✿★,也就是CoT数据ღ✿★。SFT阶段ღ✿★,就是用这些带有“思考步骤”的样例子去微调模型ღ✿★,让它学会像人一样逐步分析问题ღ✿★、得出结论ღ✿★。
过去ღ✿★,获取高质量的CoT数据一直是训练推理模型的瓶颈之一ღ✿★。普通问答数据通常只包含问题和答案ღ✿★,而要激活模型的反思能力ღ✿★,需要为题目配上详细的思维过程ღ✿★。但这类数据在公开数据集中几乎不存在ღ✿★,人工标注成本极高ღ✿★,用AI自动生成往往又质量不佳ღ✿★。
DeepSeek-R1选择开放CoT数据ღ✿★,使得后来者可以直接用这些数据对模型进行蒸馏ღ✿★,让一个不具备推理能力的模型ღ✿★,通过模仿DeepSeek-R1给出的解题步骤ღ✿★,获得推理能力ღ✿★。邹昊晟表示ღ✿★,有了一个开源的ღ✿★、能生成CoT的模型之后ღ✿★,很多跟进工作整理出了开源的ღ✿★、带CoT的数据集ღ✿★,这大大降低了获取的成本ღ✿★。
于是ღ✿★,相比亲自走一遍纯强化学习这条难度高ღ✿★、试错成本大的路线ღ✿★,后来者更倾向于使用这些公开的CoT数据进行蒸馏ღ✿★,训练推理模型ღ✿★。一旦有一个模型允许蒸馏ღ✿★,就会有无数个ღ✿★。邹昊晟说ღ✿★,“在资源消耗和可控性上ღ✿★,蒸馏要好很多”ღ✿★。
根据邹昊晟的粗略估计ღ✿★,和蒸馏相比ღ✿★,从头强化学习需要的资源至少多一个数量级ღ✿★。强化学习训练过程中的数据主要都靠模型自己采样生成ღ✿★,不像监督学习的数据更容易人为干预ღ✿★。根据Light-R1强化学习部分的训练经验ღ✿★,一个14B的模型进行强化学习训练ღ✿★,需要128张A100卡跑超过40个小时ღ✿★。而利用了SFT步骤的Light-R1-32B模型训练ღ✿★,只需要96张H800卡跑6小时ღ✿★。
相比直接训练推理模型ღ✿★,从已有模型中进行蒸馏在资源消耗上要低得多ღ✿★。研究者可以先生成一小批问题的解题过程ღ✿★,用于初步训练ღ✿★。如果算力紧张ღ✿★,后续还可以按需补充ღ✿★。在抓取完 DeepSeek-R1的回答后ღ✿★,后续对数据清洗ღ✿★、筛选和组织工作大多属于低成本环节ღ✿★。根据处理后的数据ღ✿★,还可以产出多个版本ღ✿★,分别用于不同模型的训练ღ✿★。
在邹昊晟看来ღ✿★,纯强化学习路线更多体现的是一种研究上的美感ღ✿★,但这种方法存在两个现实问题ღ✿★:一是最终分数仍然不如先经过蒸馏再进行强化学习等步骤优化后的模型ღ✿★,二是模型的思考过程可读性不强ღ✿★。他补充说ღ✿★,DeepSeek部署上线-Zero模型ღ✿★,而是经过SFT后再强化学习训练的R1模型ღ✿★。纯强化学习训练出来的模型ღ✿★,目前与用户直接交互的能力还稍显不足狂野小农民二狗电视剧在线观看ღ✿★。
另一个限制出现在模型的体量上ღ✿★。在未经过SFT 的基础模型上直接进行强化学习ღ✿★,对小模型来说很困难ღ✿★。
许书尧提到ღ✿★,流行的说法是3B参数量是一个“门槛”ღ✿★。如果模型规模小于这一阈值ღ✿★,在强化学习阶段往往难以表现出回答长度的增长或准确率的提升ღ✿★。他在实验中曾尝试对Qwen2.5-1.5B-Instruct模型进行强化学习训练ღ✿★,但没有成功复现推理能力的提升ღ✿★,换用 Qwen2.5-7B-1M模型后ღ✿★,这一效果才得以显现ღ✿★。
这背后其实是概率问题ღ✿★。比如让模型解一道题ღ✿★,目标是让它给出正确答案ღ✿★,这样它就能获得正向奖励ღ✿★。但如果模型太小ღ✿★,它几乎永远给不出正确答案ღ✿★,连“猜对”的概率都没有ღ✿★,模型就没法通过强化学习放大正确的行为ღ✿★。
例如ღ✿★,对一个7B的模型做64次采样ღ✿★,也就是让模型对同一个问题生成64次答案ღ✿★,它也许回答正确几次ღ✿★。但对于一个1B模型ღ✿★,可能64次中没有一次是正确的ღ✿★。在有限的训练次数下ღ✿★,始终得不到正确的答案ღ✿★,强化学习也就没法向得到正确答案的方向引导ღ✿★。
相反ღ✿★,蒸馏则是对小模型友好的方法ღ✿★,在许书尧的后续实验中狂野小农民二狗电视剧在线观看ღ✿★,通过让7B模型指导1.5B模型ღ✿★,模型展现出明显的反思行为ღ✿★,思维链也变得更长ღ✿★。
邹昊晟介绍ღ✿★,在其团队工作之前ღ✿★,虽有大量复现和跟进实验ღ✿★,但无一能比肩DeepSeek蒸馏Qwen 32B模型在AIME24上72.6分的成绩ღ✿★。而他所在的团队成功在一个更小的14B模型上ღ✿★,不仅实现了强化学习阶段响应长度与验证分数的同步提升ღ✿★,还将成绩提高到74分ღ✿★,超越了前者ღ✿★。金宝搏188官网app网址ღ✿★!金宝搏188APPღ✿★,deepseekღ✿★,