Q*项目公开发布！研究团队并非OpenAI

西风 2024-06-25 19:53:43 来源：量子位

百倍提升小模型推理能力

昆仑万维投稿

量子位 | 公众号 QbitAI

Q*项目公开发布，可让小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力。

自去年11月伴随着OpenAI内讧，其神秘Q*项目被爆出后，业内对OpenAI Q*的讨论和猜测就没停过，而OpenAI这边一直避而不谈。

在当时，一些人就从名字猜测Q*可能与Q-Learning有关，例如Meta科学家田渊栋提出Q*可能是Q-learning和A*的结合：

而现在，一项名为Q*的项目突然公开发布，而且真的和Q-Learning、A*有关。

不过，研究团队并非OpenAI，更不是DeepMind（相传，OpenAI的Q*项目前身是GPT-Zero，由Ilya Sutskever发起，名字致敬了DeepMind的Alpha-Zero）。

而是来自国内昆仑万维颜水成团队与新加坡南洋理工大学的一项新工作。

团队表示，希望Q*算法能够打破OpenAI的封锁，提升现有开源模型的推理能力。实验中，Q*算法的表现也很给力：

在GSM8K数据集上，Q*帮助Llama-2-7b提升至80.8%的准确率，超越了ChatGPT；
在MATH数据集上，Q*帮助DeepSeek-Math-7b提升至55.4%的准确率，超越了Gemini Ultra；
在MBPP数据集上，Q*帮助CodeQwen1.5-7b-Chat提升至77.0%的准确率，缩小了与GPT-4的编程水平差距。

网友看到这项工作后一时间炸开了锅，研究命名无疑成为了讨论的一大焦点，网友的评论却很一致：

这就是Q*。

虽然不是那个Q*，但却是真正的Q*：

谁让OpenAI至今不发布任何名为Q*的工作：

抛开命名，从研究本身来讲，有网友看过论文后感叹这项研究真不简单：

越思考，就越觉得Q*的这个方法是正确的。

甚至有网友认为有种AGI的感觉：

那么，Q*到底长啥样？

复杂推理任务全盘规划

最后利用A*搜索算法对状态进行最佳优先搜索，实现了对复杂推理任务的全盘规划，从而提升开源模型在推理任务上的性能。

随后，研究团队通过一系列实验，证实了Q*框架可以显著提升LLM的推理能力。

如开头所述，在GSM8K数据集上，Q*帮助Llama-2-7b提升至80.8%的准确率，超越了ChatGPT；在MATH数据集上，Q*帮助DeepSeek-Math-7b提升至55.4%的准确率，超越了Gemini Ultra; 在MBPP数据集上，Q*帮助CodeQwen1.5-7b-Chat提升至77.0%的准确率，缩小了与GPT-4的编程水平差距。

具体结果见下图：

Q*能够帮助参数量仅为7b的小模型达到参数量比其大数十倍甚至百倍模型的推理能力，大幅提升模型的性能，并显著降低了计算资源的需求。

不过，昆仑万维团队也表示，Q*的研究尚在初级阶段，算法在各个环节还有进一步的改进空间。

未来，会继续深入此项研究，不断提升国产开源模型推理能力，打破OpenAI闭源封锁，为AI前沿技术发展带来全新可能。

更多细节，感兴趣的家人们可以查看原论文～

论文链接：https://arxiv.org/abs/2406.14283

大模型推理昆仑万维

西风

Q*项目公开发布！研究团队并非OpenAI

复杂推理任务全盘规划

相关阅读

国产4o大模型，秒懂国风李子柒

小模型越级挑战14倍参数大模型，谷歌开启Test-Time端新的Scaling Law

昆仑万维「天工大模型4.0」o1版（Skywork o1）正式启动邀请测试

400万token上下文、推理再加速46%！最新开源方案升级MIT成果

解密中国首个“音乐版Sora” | 中国AIGC产业峰会

颜水成加入昆仑万维：“目前AI浪尖是Foundation Models”

热门文章

又一开源AI神器！将机器学习论文自动转为可运行代码库

全栈AI基础设施支撑，跑出全球首个开放使用视频生成DiT模型

人人可用的超级智能体！100+MCP工具随便选，爬虫小红书效果惊艳

Qwen3真香！通义App满血接入，一手实测在此

当购物用上大模型！阿里妈妈首发世界知识大模型，破解推荐难题