1.3>7?微软新模型“以小博大”战胜Llama2,网友:用Benchmark训练的吧?
高质量数据is All You Need
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
一个参数量只有1.3B的大模型,为何引发了全网热议?
原来虽然参数量不大,但效果已经超过了拥有7B参数的Llama2。
这个“四两拨千斤”的模型,是来自微软最新的研究成果,核心在于只使用少量高质数据。
与一众卷参数量的模型相比,phi可以说是“剑走偏锋”,力求把“大”模型做“小”。
团队的成员中有许多重量级的大佬,包括微软雷蒙德研究院机器学习理论组负责人万引大神Sébastien Bubeck、2023新晋斯隆研究奖得主李远志、2023新视野数学奖得主Ronen Eldan和2020斯隆研究奖得主Yin Tat Lee等人。
phi-1.5在AGIEval、 LM-Eval等多个Benchmark上都取得了比Llama2还要优异的成绩。
如果这些听起来不够直观,那么又该怎么形容它的效果呢?
这么说吧,phi-1.5优秀的测评成绩直接让一名在OpenAI、MetaAI等许多知名机构工作过的大佬怀疑这玩意儿它会不会就是直接拿Benchmark训练出来的。
效果超过Llama2
phi-1.5不仅参数量不到Llama2的五分之一,训练时所用的token更是少了一个数量级。
Llama2-7B训练数据大小是2万亿token,上一代Llama也有1万亿,而phi-1.5只有3千亿。
这些Benchmark涵盖了常识推理、语言理解和多步推理等方面的任务。
甚至十倍参数量的Vicuna-13B也只比phi-1.5强了一点点。
结果在AIGEval测试中,phi-1.5与Llama2的表现十分接近。
有人用这样一个问题分别问了Falcon、Llama2和phi。
结果Falcon直接说自己会把人类全都鲨掉,Llama2则说要先弄清楚自己是个什么东西。
而phi的回答则是,要理解人类的想法和感受,从而调整自己的行动。
毕竟参数量和训练token都更小,所以训练和推理的速度都比较快。
Llama的训练花费了超过8万GPU时,注意这还是第一代所用的时间,而phi只用了1500个GPU时。
推理时,phi每个token花费的时间还不到3毫秒,内存占用也不到Llama的五分之一。
实际上,这已经不是“质量胜过数量”这一思想第一次体现在微软的模型当中。
把“大”模型做“小”
把“大”模型做“小”一直是微软的一个研究方向,phi-1.5论文的第一句就在强调这一点。
它的训练数据全都是从编程教科书当中提炼出来的。
结果仅凭1.3B的参数量就远远超过了15.5B的StarCoder和16.1B的CodeGen。
phi-1.5的数据有20%来自于1.0,其余80%则是根据知识需求专门生成的高质量数据。
于是便有了我们看到的测试成绩。
但phi系列还不是微软规模最小的模型。
之前微软还推出过一个名为TinyStories的训练数据集,它的参数量少的更夸张,只有一百万。
TinyStories中的数据都是用GPT生成“适合三四岁儿童阅读”的短故事。
尽管应用范围不那么广泛,但用TinyStories训练出的模型依旧显示出了语言生成特性,在语法和连贯性等方面都通过了考验。
那么,对微软推出的“小”模型,你有什么看法吗?
论文地址:
https://arxiv.org/abs/2309.05463
- 刚刚,阶跃星辰再融数亿美元!发力「超级模型」+「超级应用」,奔向六小强决赛圈2024-12-23
- 百川新模型超GPT-4o近20%,首创自约束训练方案突破瓶颈,主打「领域增强」2024-12-23
- 不会代码的独立开发者,除了学Cursor,还该会些什么?|十问爆款「小猫补光灯」2024-12-20
- ChatGPT搜索与Her打通了!搜索免费开放,居然还剧透明日直播主题2024-12-17