开云体育性能优于 GPT-4o-开云「中国」kaiyun网页版登录入口

发布日期：2026-02-12 00:13 点击次数：124

o1/o3 带火的推理诡计 Scaling开云体育，正本谷歌早在本年 8 月就曾探讨过。

那时，来自斯坦福、牛津以及谷歌 DeepMind 的团队建议通过重叠采样来推广推理诡计量——

后果在编码任务中将性能最多提高 40%。

他们发现小模子通过生成多种谜底 / 样本，其任务阐扬可能比一些大型模子单次尝试还要好。

比如，DeepSeek-Coder 通过重叠收集 5 个样本，性能优于 GPT-4o，而资本却仅为后者的三分之一。

这篇论文讲了什么？

这篇论文取名 Monkey，灵感来自于无穷山公定理。

一只山公在打字机键盘上就地敲击键盘无穷长的时辰，险些驯顺会打出任何给定的文本。

而在大模子的语境下，惟一采的样够多，那么大模子总能找到正确解。

本文顺服的重叠采样设施，最初通过大模子中采样，为给定的问题生成很多候选解。

其次再遴荐特定界限的考证器 Verifier（比如代码的 unittests），从生成的样本中遴荐最终谜底。

重叠采样的灵验性取决于两个关键特色。

笼罩率，跟着样本数目的加多，咱们不错诈欺生成的任何样本惩办若干问题。

精准度，在从生成的样本辘集中遴荐最终谜底的情况下，咱们能否识别出正确的样本？

他们关爱的是 yes or no 的任务，在这些任务中，谜底不错平直被打分为对或者错，主要目标是告成率——即大概惩办问题的比例。

通过重叠采样，有计划这么一种建造，即模子在尝试惩办问题时不错生成很多候选解。

因此，告成率既受到为很多问题生成正确样本的才能（即笼罩率）的影响，也受到识别这些正确样本的才能（即精准度）的影响。

基于此，详情了五种数学和编程任务：GSM8K、MATH、MiniF2F-MATH、CodeContests、SWE-benchLite。

后果剖析，在多个任务和模子中，笼罩率随样本数目加多而培植，在某些情况下，重叠采样可使较弱模子零散单样人性能更好的强模子，且资本效益更高

比如在使用 Gemma-2B 惩办 CodeContests 编程问题时。跟着样本数目的加多，笼罩率提高了 300 倍以上，从一次尝试的 0.02% 提高到 10000 次尝试的 7.1%。惩办来自 GSM8K 和 MATH 的数学单词问题时，Llama-3 模子的笼罩率在 10,000 个样本的情况下增长到 95% 以上。

酷爱的是，log（笼罩率）与样本数之间的联系时时顺服访佛的幂律。

在 Llama-3 和 Gemma 模子中，不错不雅察到笼罩率与样本数呈访佛对数线性增长，越过几个数目级。

在不同参数目、不同模子以及后查考水平（基础模子和微调模子）下，齐剖析通过重叠采样 Scaling 推理时辰诡计，笼罩率齐有一致的培植。

此外，他们还施展注解了这种 Scaling 还能降本增效，以 FLOPs 算作资本目标，以 LIama-3 为例。

诡计公式如下：

比较 Llama-3-8B-Instruct 和 Llama3-70B-Instruct 的资本（以推理 FLOPs 数目算计）和笼罩率。当 FLOPs 预算固定时，在 MiniF2F、GSM8K 和 MATH 上，Llama-3-8B-Instruct 的笼罩率老是高于更大（更贵）的 70B 模子。但是，在 CodeContests 中，70B 模子险些老是更具资本效益。