姚班斯隆奖马腾宇创业：大模型+顾问李飞飞

克雷西 2023-11-01 13:40:20 来源：量子位

嵌入模型SOTA，超越OpenAI

克雷西发自凹非寺

量子位 | 公众号 QbitAI

清华姚班校友、斯坦福助理教授马腾宇，正式宣布大模型创业！

马腾宇透露，他带领团队打造了目前最好的嵌入模型，比OpenAI的还要好。

此外，还会提供专注于某个领域或企业的定制化模型。

马腾宇将这个项目命名为Voyage，是针对RAG（检索增强生成）专门优化的嵌入模型。

根据Voyage官网显示，斯坦福人工智能实验室主任Christopher Manning、AI领域著名华人学者李飞飞等三名教授都担任了Voyage的学术顾问。

Voyage最重要的特点就是高检索精度，在HuggingFace提出的MTEB数据集上的评分超过了OpenAI，成为SOTA。

Voyage还与知名开源框架LangChain合作，同时提高了其聊天机器人的检索和回复质量。

对于嵌入模型，有人评价到与大语言模型相比“需要的算力、数据和行业经验都少的多”，似乎是个创业的好方向。

Voyage具体是什么样的产品，下面就来了解一下。

嵌入模型SOTA

在ChatPDF等RAG应用中，嵌入模型（Embedding Model）负责将文本向量化的环节。

嵌入模型与生成式模型有一定相似之处，但更加侧重于语义理解，通过神经网络（通常是Transformer）架构来对语义上下文进行捕获和压缩。

难度上，训练嵌入模型和生成式模型一样困难——训练高质量的嵌入模型需要在架构、数据、损失函数等许多方面进行反复实验。

Voyage团队介绍，他们选择创业的一个重要原因是认为业界对嵌入模型的重视程度远远不够。

他们用了5年时间，收集了海量训练数据和预/后处理方法，最终打造出了这款SOTA的嵌入模型。

测试成绩方面，Voyage在常用于测试嵌入模型的MTEB数据集中取得了SOTA的成绩，比OpenAI高了0.5个百分点。

在工业领域数据集上，Voyage相对OpenAI的优势就更加明显了。

不过Voyage的通告中也说，MTEB这个数据集因为应用过于广泛，有时会被拿来专门训练。

在承诺没有在MTEB上“作弊”的同时，Voyage还提出了9个“真实世界”数据集，内容涵盖了技术文档、新闻，甚至是餐馆评价等多个方面。

结果在这9个数据集上，Voyage全部取得了最好成绩，其中还有几项取得了碾压式的结果。

技术上，Voyage使用了全新的自监督损失函数，以及涉及多个领域、针对RAG和搜索量身定做的训练数据。

同时，Voyage还采用了新的微调技术，无需人类标注就能完成。

使用方式上，可以通过API或者安装Python库来调用，窗口长度为4096token。

目前，Voyage推出了标准版和轻量版两个版本，未来还将推出XL规模以及代码和金融领域版本。

价格方面，标准版和轻量版都是每100万token0.4美元，新用户可以免费体验5000次输入（查询或文档）。

那么，Voyage的创始人兼CEO马腾宇是谁呢？

保送清华姚班，和陈丹琦同学

马腾宇现任斯坦福大学助理教授，研究方向包括机器学习、算法等多项内容。

2008年，马腾宇被保送进入清华姚班，和陈丹琦是同班同学。

马腾宇博士就读于普林斯顿大学，导师是理论计算机科学家、两届哥德尔奖得主Sanjeev Arora教授。

读博期间，马腾宇获得了理论计算机方向的西蒙斯奖等诸多奖项，被导师夸赞“比自己还聪明”。

博士毕业后，MIT、哈佛、斯坦福等顶尖高校都给了他助理教授的Offer，马腾宇最终选择了斯坦福。

2021年，马腾宇获得了具有“诺奖风向标”之称的斯隆奖，成为继鬲融之后清华姚班又一名获此奖项的校友。

参考链接：
https://blog.voyageai.com/2023/10/29/voyage-embeddings/

大模型清华姚班

克雷西

姚班斯隆奖马腾宇创业：大模型+顾问李飞飞

嵌入模型SOTA

保送清华姚班，和陈丹琦同学

相关阅读

对话吴欣鸿：美图AI首先追求帮用户赚到钱，应用窗口期就2年

网盘用上大模型后「真香」！压箱底黑照3秒找到，亲朋好友都不淡定了

512张GPU炼出10万亿参数巨模型！5个月后达摩院模型再升级，今年双十一已经用上了

首次引入视觉定位，实现细粒度多模态联合理解，已开源&demo可玩

大模型挑选指南来了！涵盖六种情况下的选择方案，为你匹配最佳模型｜来自沃顿商学院教授

中医大模型来了！临床诊疗和养生调理一步到位，发布现场训练过程大公开，超1100万条知识图谱数据

热门文章

英伟达含量为零！华为密集模型性能比肩DeepSeek-R1，纯昇腾集群训练

联想百应智能体入选量子位“2025年值得关注的AIGC产品”：国内首个AI服务智能体打破中小企业AI落地困局

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

GPT-4.1淘汰了4.5！全系列百万上下文，主打一个性价比

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此