模型合并就进化，直接拿下SOTA！Transformer作者创业新成果火了

丰色 2024-03-25 13:41:40 来源：量子位

英伟达科学家：最有想象力的论文

丰色发自凹非寺

量子位 | 公众号 QbitAI

把Huggingface上的现成模型拿来“攒一攒”——

直接就能组合出新的强大模型？！

日本大模型公司sakana.ai脑洞大开（正是“Transformer八子”之一所创办的公司），想出了这么一个进化合并模型的妙招。

该方法不仅能自动生成新的基础模型，而且性能绝不赖：

他们得到的一个70亿参数的日语数学大模型，直接在相关基准测试上取得了SOTA，打败了700亿参数的Llama-2等前辈。

最重要的是，得出这样的模型不需要任何梯度训练，因此需要的计算资源大大减少。

英伟达科学家Jim Fan看完大赞：

这是我最近读过的最有想象力的论文之一。

合并进化，自动生成新基础模型

从开源大模型排行榜上表现最好的模型，大多不再是LLaMA或Mistral这种“原始”模型，而是一些微调或合并模型之后，我们就能看出：

一种新的趋势出现了。

Sakana.ai介绍，开源基础模型很容易在数百个不同的方向上进行扩展和微调，然后产生在新的领域表现出色的新模型。

而在这之中，模型合并显现出了巨大前景。

但，它可能是一种“黑魔法”，严重依赖直觉和专业知识。

因此，我们需要更为系统性的方法。

受自然界的自然选择启发，Sakana.ai盯上了进化算法，引入“进化模型合并”（Evolutionary Model Merge）的概念，提出一种可以发现最佳模型组合的通用方法。

该方法结合了两种不同的思路：

（1）合并数据流空间（层）中的模型，以及（2）合并参数空间（权重）中的模型。

具体而言，第一种数据流空间方法是通过进化来发现不同模型层的最佳组合，以此形成新模型。

在社区以往的做法中，都是靠直觉来确定如何以及模型哪些层可以与另一个模型的层结合。

但其实，Sakana.ai介绍，这个问题有一个组合数量巨大的搜索空间，最适合由优化算法如进化算法来搜索。

其操作示例如下：

至于第二个参数空间方法则混合多个模型权重来形成新模型。

这种方法其实很无数种实现，再加上混合的每一层原则上可以使用不同的混合比例，就更多了。

而这，利用进化方法就可以有效地找出更为新颖的混合策略。

以下是将两个不同模型的权重进行混合得到新模型的操作示例：

将以上这两种方法合并，就是这样的：

作者介绍，他们希望在相距较远的领域，例如数学和非英语语言、视觉和非英语语言，来组成之前大家不曾探索过的新兴组合。

结果，还真有点让人惊喜。

新模型轻松拿下SOTA

用以上进化合并方法，团队得到了3个基础模型：

大语言模型EvoLLM-JP

由日语大模型Shisa-Gamma和数学大模型WizardMath/Abel合并而成，擅长解决日语数学问题，进化了100-150代。

视觉语言模型EvoVLM-JP

日语大模型Shisa Gamma 7B v1+LLaVa-1.6-Mistral-7B，是具有日语能力的VLM。

图像生成模型EvoSDXL-JP

支持日语的SDXL扩散模型。

前两个已在Hugging Face和GitHub上发布，最后一个也即将推出。

具体来看。

1、EvoLLM-JP

它在GSM8K数据集的多语言版本——MGSM的日语评估集上取得成绩如下：

可以看到，EvoLLM-JP用日语解决数学问题的表现超过了它们的原始模型，也超过了Llama-2、GPT-3.5等高性能模型。

其中模型4是仅在参数空间进行了优化，模型6是使用模型4在数据流空间中进一步优化的结果。

在既评估数据能力也评估一般日语能力的日语lm-evaluation-harness基准上，EvoLLM-JP则在9个任务上的平均得分最高达到了70.5——只用70亿参数，它就打败了700亿的Llama-2等模型。

团队表示，EvoLLM-JP已经足够优秀，可以作为通用日语大模型，并解决一些有趣的例子：

比如需要特定日本文化知识的数学问题，或者用关西方言讲日本笑话。

2、EvoVLM-JP

在以下两个图像问答的基准数据集上，分数越高，代表模型用日语回答的描述越准确。

结果，它不仅比其所基于的英语VLM LLaVa-1.6-Mistral-7B更出色，也比现有的日语VLM更厉害。

如下图所示，在回答图中的信号灯为什么颜色之时，只有EvoVLM-JP答对：蓝色。（日本的习俗就是把红绿灯称为红蓝灯）

3、EvoSDXL-JP

这个支持日语的SDXL模型只需4个扩散模型即可执行推理，生成速度相当快。

具体跑分还没出来，但团队透露也是“相当有希望的”。

可以欣赏一些示例：

提示词包括：味噌ラーメン、最高品質の浮世絵、葛飾北斎、江戸時代。

对于以上3个新模型，团队指出：

原则上，我们可以采用基于梯度的反向传播来进一步提高以上这些模型的性能。

但我们不用，因为现在的目的就是表明，即使没有反向传播，我们仍然可以得到足够先进的基础模型，挑战当前的“昂贵范式”。

对此，网友们纷纷点赞。

Jim Fan也补充：

在基础模型领域，目前社区几乎完全专注于让模型去学习，而不太重视搜索，但后者在训练（也就是本文提出的进化算法）和推理阶段其实都有巨大的潜力。

所以，如网友所说：

我们现在已经处于模型的寒武纪大爆发时代了吗？

论文地址：
https://arxiv.org/abs/2403.13187
参考链接：
[1]https://sakana.ai/evolutionary-model-merge/
[2]https://twitter.com/DrJimFan/status/1771927650883522899?s=20
[3]https://twitter.com/SakanaAILabs/status/1770613032198279663

Transformer 大模型

丰色

模型合并就进化，直接拿下SOTA！Transformer作者创业新成果火了

合并进化，自动生成新基础模型

新模型轻松拿下SOTA

相关阅读

嚯！大语言扩散模型来了，何必只预测下一个token | 人大高瓴&蚂蚁

大神李沐被曝离职！投身大模型创业，GitHub项目已开

豆包大模型价格出炉！超高并发，“后付费”支持每分钟万次请求

马斯克的Grok大模型能玩了！嘴跟他本人一样损

AI在操作系统里复制自己，这一天还是来了

PyTorch造大模型“加速包”，不到1000行代码提速10倍！英伟达科学家：minGPT以来最好的教程式repo之一

热门文章

3分钟搭建一个调用支付宝的智能体，MCP爆发，蚂蚁推了一把

趣丸科技贾朔：AI音乐迎来应用元年，五年内将重构产业格局｜中国AIGC产业峰会

谷歌大模型“性价比之王”来了！混合推理模型，思考深度可自由控制，竞技场排名仅次于自家Pro

粉笔CTO：大模型打破教育「不可能三角」，因材施教真正成为可能｜中国AIGC产业峰会

生数科技副总裁：多模态技术定将催生全新内容平台，实现完全个性化、实时可控、可交互｜中国AIGC产业峰会