10人俩月搞出大模型!一年16篇顶会论文:市面上做得好的都没开源

系封神榜大模型核心成员创业

衡宇 发自 凹非寺

量子位 | 公众号 QbitAI

一家今年5月份成立在深圳的公司,团队至今不到10人。

他们要做的却不是小事:挑战AGI

底气在哪?一看过往履历,二看现在赛道的成绩。

这几个人近一年中,累计在CVPR、ICML、ECCV等顶会上发表16篇大模型相关论文,其中一篇还拿下了顶会ACL 2023的最佳论文提名。

创业后的成绩如何?成立两个月后,所训模型杀入C-Eval榜单前三,中文能力击败ChatGPT和Claude-v1.3。

这就是共生矩阵拿出的成绩。

并且旗下模型GS-LLM七月末首次上榜至今,在C-Eval榜单65个上榜选手中,一直处于第一梯队。

那么,共生矩阵是谁?

10人俩月搞出大模型!一年16篇顶会论文:市面上做得好的都没开源

10个人挑战AGI

共生矩阵,目标立足自研AGI技术,打造行业数据精炼工厂。

团队所依托的主要是自研大模型GS-LLM。

模型参数规模从7B-130B不等,能根据用户的实际需求量体裁衣。

在C-Eval上占据一席之地的有基于GS-LLM的两个版本,一个是百亿参数版本的GS-LLM-Beta,另一个是不足百亿规模的mini版本GS-LLM-Beta-Mini。

推出mini版本的原因是发现不少使用者,原有的运作环境(甚至云端环境)不足以支撑大体量的本地部署。

测试结果发现,几十亿版本的GS-LLM-Beta就可以发挥不错的性能,在C-Eval上最好排名达到第6。

10人俩月搞出大模型!一年16篇顶会论文:市面上做得好的都没开源

能够常驻C-Eval榜单前列的原因之一,是共生矩阵搭建了一套完全独立的训练框架,对整个训练构成比较完备的技术支撑。

第二个点在数据,这是这家公司格外重视的一点。

共生矩阵CEO张林举了个简单的例子:

把模型训练比作人的成长过程。如果他从小看的都是没有营养的小说,这个人的总体能力不会太强。

去年团队在一个实验中发现,当模型数据达到某一数量级时,数据质量的跃升反而能引起一些质变

“也就是说,有一个相对小体量(如百亿级别)的模型,喂给它高质量的数据,训练出来的结果和千亿级别的结果是很接近的。”张林说。

这个实验也让团队对数据质量、体系化获取高质量数据途径的重视再+1。

其实这点近期越来越引起各界注意,微软就有一项新研究《Textbook are all you need》,工作表示,做大不是唯一的出路,高质量的数据才是至关重要的。

于是乎,共生团队构建了一套清洗数据的工程化体系,24小时持续清洗数据。

团队目前清洗出的可以用于训练的文本数据,大约有20T,“这个量级能够支撑非常大体系的模型训练”。

不过张林也透露,短期内共生矩阵不会对外公开团队清洗出的数据。

10人俩月搞出大模型!一年16篇顶会论文:市面上做得好的都没开源

那么,团队想打造的数据精炼工厂又是什么概念?

张林解释,如果把大模型理解为“信息压缩”,那么它本身就是一个体量很大的参数数据库

数据精炼工厂要做的事,就是将模型训练好后的参数数据进行共享和交易。

要知道,大模型的功能是通过参数来承载的,交易参数其实就是切换功能,我们需要大模型功能的多样性,“参数交易是最高效的路径”。

这里指的数据不是大家看得到的那种数据,而是参数数据。我们常说的数据是一段文本、一张图片,而工厂拥有的数据是模型训练好的参数,对参数进行商业化交易。

“原始数据直接进行交易,受到量级大、隐私问题等掣肘。”张林解释,数据交易的概念已经提了很多年了,但并没有完全被市场接受,团队认为想要数据真正流通起来,需要更合理、安全、有效,因此最终确定了参数层面的数据交易。

在团队设想中,数据精炼工厂跑通后,部分数据不用重复训练,效率提升,成本也可降低。

用更少的人和资源把大模型体系做好

大模型热潮中,如何评价大模型成为重要问题,这也是各类榜单雨后春笋出现的原因。

共生矩阵上榜C-Eval后,外界聚焦来的目光主要有2点:

除了成绩不错外,另一个惹人关注的点是,他们是榜上少见的小型团队

10人俩月搞出大模型!一年16篇顶会论文:市面上做得好的都没开源

团队表示,榜单并不是全世界唯一最权威,但成立一个月开始上榜,一度杀进前三,能够反映“我们用更少的人和资源把大模型体系做好”。

没错,共生矩阵团队只有不足10人。

人不多,但都挺能打——

CEO张林CTO王军杰等团队中的核心都出自IDEA研究院,在国内封神榜预训练模型开源体系工作中有丰富实战经验(据悉,封神榜目前已有超过98个开源预训练模型)

张林本人博士毕业于美国纽约州立大学,在计算机国际顶会上发表过三十多篇论文,此前是粤港澳大湾区数字经济研究院(IDEA)资深高级研究员。

王军杰则是早稻田大学的计算机博士,此前是封神榜大模型团队的核心成员。

10人俩月搞出大模型!一年16篇顶会论文:市面上做得好的都没开源

张林

纵观当下的AI市场,小团队搞好AI并不是没有先例,最负盛名的文生图模型Midjourney背后,只有11个成员,被称为新时代组织的标杆。AI 2.0时代,国内外也出现了诸多讲求“小而美”的大模型创业团队。

当然,张林表示更深层原因,是因为大模型不是简单堆人力的项目,需要少数精英式团队以保证效率。

他表示训练模型时,技术层面如算子优化、混合精度等,以及背后几百张卡同时支持时通信层面的问题,都非常考验工程能力。小团队如果能将遇到的工程性问题解决,提高效率,不必靠大团队解决。

另外,技术核心小团队更有利于保持思想独立性,不墨守成规以探索更多可能性,堆人力反而容易降低整体效率。

据他预估,全国大模型领域顶尖的人才“加起来可能也就100人左右”,也没什么组建大团队的空间

因此,团队将在一定时间内保持“不足十人”这个规模。

归根结底,这是对AI 2.0时代与AI 1.0时代背后范式和理念的理解不同。

10人俩月搞出大模型!一年16篇顶会论文:市面上做得好的都没开源

交流过程中,张林还很直接地表达了团队在另一层面与主流声音的不同理解,它体现在开闭源理念上。

前段时间,免费可商用的LLaMA-2一出,不少人都表示这对市面上的创业公司将是巨大打击,因为LLaMA-2可以满足大多数公司对更低成本和个性化的需求。

“LLaMA-2并没有改变市场格局。”共生团队眼中,真正领先的团队并不会开源核心技术。

张林还补充道在当前阶段,开源的意义更多在于教育市场,而非推动商业化

就像树莓派对电子发烧友有意义,但不会改变手机电脑市场一样,LLAMA 2对入门级用户较有价值,但对要做商业化的用户影响不大。

像这样带点“非主流”的观点和理解,共生矩阵还有不少。

比如不认为大模型就是通用AI的终点,也不认为ChatGPT代表终极方向

他们对独角兽式快速扩张也持谨慎态度,更重视团队凝聚和技术积淀。

……

对于未来的发展路线,共生矩阵选择短期内先闭源,未来在合适的机遇下可能适当开源。

开源需要有明确的商业驱动目标,当前大模型技术仍处于快速迭代和竞争阶段,开源核心技术有丧失先发优势的风险。

版权所有,未经授权不得以任何形式转载及使用,违者必究。