188bet体育app官网 3B小模子贴近Claude Opus 4.5: 基准坏了, 如故后训导太强?

你的位置：188bet体育app中国官网 > 188bet体育app > 188bet体育app官网 3B小模子贴近Claude Opus 4.5: 基准坏了, 如故后训导太强?

188bet体育app官网 3B小模子贴近Claude Opus 4.5: 基准坏了, 如故后训导太强?

发布日期：2026-06-19 04:53 点击次数：203

188bet体育app官网 3B小模子贴近Claude Opus 4.5: 基准坏了，如故后训导太强?

一个基于Qwen2.5-Coder-3B的小模子，靠后训导在AIME26、LiveCodeBenchv6等可考据任务上冲到前沿模子隔邻。

3B参数，原来应该是小模子的空闲区。

能腹地跑，资本低，速率快，相宜作念轻量任务。很少有东谈主会把它和ClaudeOpus4.5、DeepSeekV3.2、KimiK2.5、GLM-5、Gemini3Pro这么的前沿模子作念对比。

VibeThinker-3B此次偏巧挤了进来。

代码部分先把争议拉满了，LiveCodeBenchv6上，VibeThinker-3B拿到80.2，距离ClaudeOpus4.5的84.8仍是不远。

百家乐2026世界杯中国官方下载

AIME26上，它又拿到94.3，以0.1分的细小上风险胜671B参数的DeepSeekV3.2（94.2）。加入声明级可靠性评估（CLR）后，获利升到97.1。模子权重也已公开。

VibeThinker-3B的毅力聚积在数学、代码和部分STEM这类考据信号明确的任务上。在这些任务上，它至少诠释，小模子的可考据推理上限可能比许多东谈主预期得更高。

论文标题：

VibeThinker-3B:ExploringtheFrontierofVerifiableReasoninginSmallLanguageModels

论文纠合：

代码纠合：

https://github.com/WeiboAI/VibeThinker

参数效果

参数反差在IMO-AnswerBench上最直不雅。VibeThinker-3B惯例获利为76.4，加入CLR后达到80.6。

手脚参照，DeepSeekV3.2为671B，得分78.3；GLM-5为744B，得分82.5；KimiK2.5为1T，得分81.8。

〓VibeThinker-3B在IMO-AnswerBench上展现出稀奇的参数效果。

单看这个基准，3B参数仍是参加数百B到1T模子的得分区间。

VibeThinker-3B在AIME26上为94.3，LiveCodeBenchv6为80.2，IFEval为93.4；加入CLR后，AIME26、HMMT25、BruMO25和IMO-AnswerBench分袂升至97.1、95.4、99.2和80.6。

〓VibeThinker-3B与前沿推理模子的中枢主义对比。

后训导蹊径

外部征询最存眷的，是VibeThinker-3B如安在旧底座上络续作念后训导。

它使用的底座是Qwen2.5-Coder-3Bbase，关节在于何如通过数据构造、SFT、强化学习和自蒸馏，无间开释3B模子的推理才智。

〓VibeThinker-3B的训导经过由两阶段SFT、多域强化学习、离线自蒸馏和教导强化学习构成。

SFT阶段接纳两阶段课程学习。

前一阶段作念广域粉饰，数据包括数学、代码、STEM推理、通用对话和教导随从。

后一阶段转向高难长程推理样本，博亚体育app中国官方入口过滤掉推理轨迹短于5Ktoken的样本，并用VibeThinker-1.5B对每个问题作念8次落寞采样，去掉诞妄率低于0.75的相对浅易题。

数据构造相通是这套训导栈的关节。其中，千般性探索蒸馏认真保留多种有用解法，而非沿单一齐径作念师法。

模子通过多旅途推理蒸馏学习不同领会方式、推导旅途和考据战略，再经过n-gram过滤、查询质地过滤、谜底考据、代码沙箱实行和多数投票，裁汰低质地样本与基准沾污风险。

中间checkpoint的选择也更偏向千般性：团队在领域探伤集上看Pass@K，挑出能产生更多有用解的领域行家模子，再作念参数级吞并。

强化学习阶段沿用MGPO。对每个问题，模子会采样一组回答，并用西宾正确率(p(q))预计它对现时模子的难度。正确率接近0.5的样本最有价值，因为它们正处在模子会与不会之间，MGPO会给这类样本更高权重。

这么一来，188bet体育app中国官网强化学习更新会更聚积地放大规相貌本中的可考据信号。

训导法例是数学强化学习、代码强化学习、STEM强化学习。VibeThinker-3B径直接纳64K长险阻文强化学习，减少早期采样轨迹截断对长推理举止的艰涩。

随后是Long2ShortMathRL。模子先优化准确率，再通过中心化长度感知奖励偏移，在正确轨迹里面按长度再行分派奖励。

更短的正确谜底获取更高奖励，较长的正确谜底奖励裁汰，同期保持组内奖励偏移总额为零。场地是保住正确率，同期减少冗余推理。

离线自蒸馏还引入了学习后劲筛选。团队先用领域考据器过滤诞妄轨迹，再用学习后劲得分预计每条正确轨迹的蒸馏价值。

该得分来自学生模子对轨迹的长度归一化负对数似然；分数越高，诠释学生越莫得充分掌执这条正确轨迹，蒸馏价值也越高。

终末的教导强化学习则面向景观、法例、数目、关节词抑制和任务完成度，擢升复杂教导下的可控性。

可考据推理

工夫汇报用参数压缩-粉饰假说解释了这一气象。

数学、代码和部分STEM任务有明确响应，中枢挑战在于搜索、抑制空闲、诞妄修正和多步组合。汇报以为，这类才智更容易压缩进一个小而可复用的推理中枢。

怒放域学问则更像粉饰问题，需要模子记着大王人事实、办法、语义关联和长尾场景。VibeThinker-3B能在AIME、LiveCodeBench、IMO-AnswerBench上接近前沿模子，却无法全面追平通用大模子，原因也在这里。

CLR进一步放大了谜底可判定任务的上风。它不更新模子参数，而是在测试时生成32条候选轨迹；每条轨迹王人会索求最终谜底和5个方案关联声明，再由模子自行考据这些声明。

关节声明一朝出错，轨迹可靠性会被非线性压低。候选谜底按等价相干聚类后，再累加同组轨迹的可靠性分数，选出最终谜底。

AIME26从94.3到97.1，靠的是测试时膨大带来的增益。分数提高了，推理资本也会增多，不成和平日单次推理获利混在一谈比拟。

才智规模

VibeThinker-3B更接近一个可考据推理模子，而不是通用旗舰模子的替代品。

GPQA-Diamond更能诠释它的规模。VibeThinker-3B惯例获利为70.2，加入CLR后为72.9，仍然逾期于最强的旗舰模子。

这个差距诠释，3B参数不错承载很强的推理身手，但学问密集型任务依然锻真金不怕火参数粉饰。

近期LeetCode周赛、双周赛测试，在一定进程上回话了静态基准过拟合的疑虑。在仅用Python的单次生成评测中，8场近期比赛共128次初次提交，VibeThinker-3B通过123次，举座通过率96.1%。

〓VibeThinker-3B在近期LeetCode比赛中的代码泛化测试。

这诠释，它的代码才智不单体当今静态基准上。不外，这类题型仍然可实行、可自动评测、规模明晰，距离通用编程智能体或怒放式软件工程还有赫然判袂。

VibeThinker-3B莫得解释3B模子不错替代通用旗舰模子。更准确地说，在谜底可判定、训导信号可靠、后训导弥漫缜密的任务上，小模子的上限正在被再行评估。

大模子仍然承担学问粉饰和通用才智的主要扮装。但在参数规模除外188bet体育app官网，高质地数据、可考据响应、长推理训导和测试时膨大，仍是足以把小模子推到更高的才智区间。

推荐资讯

热点资讯

友情链接：