混合专家系统里根本没专家？开源MoE模型论文引网友热议

克雷西 2024-01-10 16:31:14 来源：量子位

实验发现专家分配与话题无关

克雷西发自凹非寺
量子位 | 公众号 QbitAI

红极一时的开源MoE模型Mixtral，论文终于新鲜出炉！

除了披露了更多技术细节，论文中还有一个结论引发了热烈讨论——

研究人员本想研究Mixtral是怎么根据话题分配专家的，结果发现专家的分配……和话题好像没什么关系。

而在大多数人的印象中，Mixtral里的8个专家，是分别负责处理不同领域的话题的……

论文的结论曝光后，不少网友开始认为“专家混合”这个说法，可能不那么贴切了：

于是，针对Mixtral真实的工作机制，有网友给出了这样的比喻：

所以，比起“专家的组合”，这样的工作方式更像是一种硬盘阵列或者负载均衡？

但也有网友表示了不同意见：

这个问题并不根属于MoE，因为自己之前见过的MoE模型中，是发现了真·专家分工的现象的。

那么，这究竟是怎么一回事呢？

实验未发现专家按领域分布

在训练过程中，作者观察了Mixtral中是否有一些专家会针对某些特定领域进行专门化。

具体来说，作者计算了第0、15、31层在The Pile验证集的不同子集（包含不同领域的文档）上被选中的专家分布。

这些子集包括LaTeX格式的arXiv论文、生物学论文（PubMed摘要）、哲学论文（PhilPapers）和GitHub代码等。

结果发现，对这几个层而言，除了数学领域（DM Mathematics）数据集的专家选择略有不同外，其余数据集的专家分布都非常类似，并没有体现出领域间有什么差别。

而在数学问题上出现不同表现的原因，可能是由于其具有相对特殊的语法结构，进一步的探究也证实了这一想法。

他们发现，专家选择会被句子的语法结构所影响，一些语法关键词，比如英语中的“Question”或者代码中的“self”，被分配到相同的专家的概率非常大。

此外，定量的分析结果还发现了另一个专家分配规律——相邻的token有很大概率被分配给同一专家。

作者比较了模型针对相邻token选择相同专家的概率，包括第一选择一致率和第一二选择一致率。

第一二选择一致是指，模型针对两个token分别做出的第一和第二选择，只要存在交集即视为一致。

（比如第一个token的第一、二专家为分别为甲、乙，第二个token的第一、二专家分别为乙、丙，因为都包含了乙，就是一种第一二选择一致的情况）

因Mixtral中有8个专家，因此在全随机的选择方式下，第一选择一致率应为12.5%（1/8），第一二选择一致率应为1 – (6/8) × (5/7)，约为46%。

但实际测试发现，Mixtral第一和第一二选择一致率高于随机情况，特别是中间的第15层，说明了模型在专家选择上是具有倾向性的。

论文地址：
https://arxiv.org/abs/2401.04088

大模型

克雷西

Claude网页版接入MCP！10款应用一键调用，开发者30分钟可创建新集成2025-05-02
1450亿！马斯克xAI与X合并后再寻资金，将成史上第二大初创企业单轮融资2025-04-27
挤爆字节服务器的Agent到底啥水平？一手实测来了2025-04-23
电视装了智能体，只凭台词就能找到剧集了2025-04-24

混合专家系统里根本没专家？开源MoE模型论文引网友热议

克雷西发自凹非寺
量子位 | 公众号 QbitAI

实验未发现专家按领域分布

相关阅读

“最强开源模型”被打假，CEO下场致歉，英伟达科学家：现有测试基准已经不靠谱了

AI生图可“量身定制”了，华为&清华联手打造个性化多模态生成方法PMG

大模型“取长补短”新思路入选NeurIPS'24，显著优于现有路由方法，南科大港科大出品

姚班天才开发《完蛋！我被大模型包围了》游戏爆火，一日用户过万挤爆服务器

开源大模型重击OpenAI！小扎放出LLaMA2炸裂科技圈，联手微软高通冲击市场格局

国内大模型数据之困有解了！头部标注厂商打造，专为垂直行业落地

热门文章

又一开源AI神器！将机器学习论文自动转为可运行代码库

全栈AI基础设施支撑，跑出全球首个开放使用视频生成DiT模型

人人可用的超级智能体！100+MCP工具随便选，爬虫小红书效果惊艳

Qwen3真香！通义App满血接入，一手实测在此

当购物用上大模型！阿里妈妈首发世界知识大模型，破解推荐难题

混合专家系统里根本没专家？开源MoE模型论文引网友热议

克雷西 发自 凹非寺 量子位 | 公众号 QbitAI

实验未发现专家按领域分布

相关阅读

“最强开源模型”被打假，CEO下场致歉，英伟达科学家：现有测试基准已经不靠谱了

AI生图可“量身定制”了，华为&清华联手打造个性化多模态生成方法PMG

大模型“取长补短”新思路入选NeurIPS'24，显著优于现有路由方法，南科大港科大出品

姚班天才开发《完蛋！我被大模型包围了》游戏爆火，一日用户过万挤爆服务器

开源大模型重击OpenAI！小扎放出LLaMA2炸裂科技圈，联手微软高通冲击市场格局

国内大模型数据之困有解了！头部标注厂商打造，专为垂直行业落地

热门文章

又一开源AI神器！将机器学习论文自动转为可运行代码库

全栈AI基础设施支撑，跑出全球首个开放使用视频生成DiT模型

人人可用的超级智能体！100+MCP工具随便选，爬虫小红书效果惊艳

Qwen3真香！通义App满血接入，一手实测在此

当购物用上大模型！阿里妈妈首发世界知识大模型，破解推荐难题

克雷西发自凹非寺
量子位 | 公众号 QbitAI