开源大模型新SOTA！支持免费商用，比LLaMA65B小但更强，基于1万亿token

丰色 2023-05-29 13:27:00 来源：量子位

盈利超100万美元就要支付10%授权费

丰色发自凹非寺

量子位 | 公众号 QbitAI

号称“史上最强的开源大语言模型”出现了。

开源大模型新SOTA！支持免费商用，比LLaMA65B小但更强，基于1万亿token

它叫Falcon（猎鹰），参数400亿，在1万亿高质量token上进行了训练。

最终性能超越650亿的LLaMA，以及MPT、Redpajama等现有所有开源模型。

一举登顶HuggingFace OpenLLM全球榜单：

除了以上成绩，Falcon还可以只用到GPT-3 75%的训练预算，性能就显著超越GPT-3，且推理阶段的计算也只需GPT-3的1/5。

据悉，这只半路杀出来的“猎鹰”来自阿联酋阿布扎比技术创新研究所(TII)。

有意思的是，作为一个开源模型，TII在Falcon上推出了一个相当特别的授权许可证要求：

可以商业使用，但如果用它产生的收益超过了100万美元，就要被收取10%的授权费。

一时之间，争议满满。

史上最强开源LLM

据介绍，Falcon属于自回归解码器模型。

它使用自定义工具构建，包含一个独特的数据管道，该管道从公开网络中提取训练数据。

——Falcon宣称它“特别注重数据质量”，从公网上抓取内容构建好Falcon的初始预训练数据集后，再使用CommonCrawl转储，进行大量过滤（包括删除机器生成的文本和成人内容）并消除重复数据，最终得到一个由近5万亿个token组成的庞大预训练数据集。

为了扩大Falcon的能力，该数据集随后又加进了很多精选语料，包括研究论文和社交媒体对话等内容。

除了数据把关，作者还对Falcon的架构进行了优化以提升性能，但细节没有透露，相关论文将很快发布。

据悉，Falcon一共耗费两个月，在AWS的384个GPU上训练而成。

最终，Falcon一共包含4个版本：

Falcon-40B：在1万亿token上进行训练，并使用精选语料库进行了增强；主要接受英语、德语、西班牙语、法语的训练，不会中文。
Falcon-40B-Instruct：在Baize上进行了微调，使用FlashAttention和多查询对推理架构进行了优化，是一个即用型聊天模型。
Falcon-7B：参数70亿，在1.5万亿token上进行了训练，作为一个原始的预训练模型，还需要用户针对大多数用例进一步微调。
Falcon-RW-7B：参数70亿，在3500亿token上进行训练，该模型旨在用作“研究神器”，单独研究各种在网络数据进行训练的影响。

开源许可证引争议

Falcon作为开源模型，已公开源代码和模型权重，可供研究和商业使用。

这对业界来说是一个好消息，毕竟像Meta的羊驼家族都只能用于研究目的，且还得填表格申请才行，很是麻烦。

但Falcon还是引起了争议。

这主要是因为它那“超过100万美元的任何商业应用都要收10%的授权费”的许可证要求。

据悉，该许可证部分基于Apache License 2.0协议，该协议对商业应用友好，使用者修改代码只需满足相关需求即可将新作品作为开源或商业产品发布或销售。

有不少网友认为，既然Falcon宣称开源，还要收费，就违背了Apache License Version 2.0的宗旨，不属于真正的开源。

并有人称这是一种“有损Apache软件基金会来之不易的名誉”的做法。

有网友已经跑到TII的官方账号下“讨要说法”：

你自己能解释一下这是如何符合“开源”的定义吗？

目前，官方并没有回复。

你认为这种做法究竟算不算开源呢？

参考链接：
[1]https://falconllm.tii.ae/
[2]https://twitter.com/ItakGol/status/1662149041831002138
[3]https://twitter.com/TIIuae/status/1662159306588815375

LLM

丰色

开源大模型新SOTA！支持免费商用，比LLaMA65B小但更强，基于1万亿token

史上最强开源LLM

开源许可证引争议

相关阅读

GPT-4o医学知识覆盖率仅55%？腾讯优图团队发布大模型医疗能力“体检报告”

最强LLaMA突然来袭！只改一个超参数，实现上下文3.2万token，多个任务打败ChatGPT、Claude 2

谷歌PaLM 2细节曝光：3.6万亿token，3400亿参数

GPT-4满分通过MIT本科数学考试！这套提示词火了

LLM也会和人类一样焦虑！还会产生更多偏见，图宾根大学最新研究

多模态LLM幻觉问题降低30%！业内首个“啄木鸟”免重训方法诞生｜中科大

热门文章

7×24小时非人类科学家入场：当AI开始自主探索科学未知领域 | 多伦多大学

数学家们仍在追赶天才拉马努金

全栈AI基础设施支撑，跑出全球首个开放使用视频生成DiT模型

蔚来李斌：一年减少了数十亿英伟达芯片采购

不到2年，AI PPT赛道第一！像素绽放CEO赵充：今年是AI应用创业最佳时期 | 中国AIGC产业峰会