向量数据库王冠易主！零一万物新成果登顶权威榜单，比前SOTA领先最高286%

克雷西 2024-03-11 15:31:43 来源：量子位

六项测试全面领先

克雷西发自凹非寺

量子位 | 公众号 QbitAI

向量数据库排行榜的头号交椅，再次易主——

来自零一万物最新研发的高性能向量数据库笛卡尔（Descartes），登顶权威测评榜单。

在此之前，榜单里六个数据集的榜首分属于两家厂商，而笛卡尔的包揽结束了这种“分庭抗礼”的局面，成为了大一统的“新王”。

在权威的ANN-Benchmark榜单中（GitHub 4.4k星），笛卡尔直接包揽了六个数据集的第一名。

而且新前两名的差距也被大幅拉开——相比比前SOTA，笛卡尔的成绩最高提升了286%。

那么，笛卡尔在测试中到底交出了怎样的答卷呢？

包揽权威榜单六项第一

笛卡尔登上的ANN-Benchmarks榜单，包含了六大测试数据集，可以展示不同算法在不同数据集下的表现。

而笛卡尔参与全部六个数据集评测，它们主要考察在不同召回下的查询性能。

结果，笛卡尔（图中右上红色曲线）在这六个数据集的评测中，都取得了最好成绩。

下图为对数坐标系，横坐标代表召回，纵坐标代表QPS（每秒处理的请求数），越往右上角意味着算法性能越好。

而“吞吐量QPS” 是衡量信息检索系统（例如搜索引擎或数据库）查询处理能力的重要指标。

在原榜单TOP1基础上，零一万物笛卡尔向量数据库实现了显著性能提升，部分数据集上的性能提升超过2倍以上，在gist-960-euclidean数据集维度更大幅领先榜单原TOP1 286%。

那么，在笛卡尔优异表现的背后，采用了哪些技术呢？

采用全栈向量技术增强性能

在零一万物团队看来，增强向量检索能力，就是在解决两个问题，一是减少考察的候选集，二是降低单个向量计算的复杂度。

针对其中第一个问题，零一万物又采用了两大策略来解决。

首先是采用全导航图技术，构建全局多层缩略图，实现图上坐标系导航，既能保证精度，又能裁剪大量无关向量，解决了哈希、KD-Tree、VP-Tree等传统方式导航效果不够精确、裁剪力度不够的问题。

另一方面，是零一万物自研的自适应邻居选择策略。

它突破了以往仅依赖真实top-k或固定边选择策略的局限，使每个节点可以根据自身及邻居的分布特征，动态地选取最佳邻居边。

这种方式可以更快收敛接近目标向量，从而让RAG向量检索性能提高15%-30%。

而针对第二个问题，零一万物采取的是两级量化方案，从而降低计算复杂度。

同时，利用列式存储充分利用SIMD的并发能力，进一步发挥硬件能力，相比传统PQ查表，性能还能大幅提升到2-3倍。

除此之外，零一万物还有索引结构优化、连通性保障等全栈向量技术方案提高笛卡尔向量数据库的性能。

最终，笛卡尔的检索精度超过了99%，而千万级数据库响应时间仅为毫秒量级。

零一万物表示，笛卡尔向量数据库将用在近期即将正式亮相的AI产品中，未来也将结合工具提供给开发者。

大模型重要的基础设施

事实上，以笛卡尔为代表，向量数据库在整个大模型行业中，本就是一项热门技术。

它是检索增强生成（RAG）技术的核心，用来存储、管理、查询和检索向量化的非结构化数据。

换言之，也就是大模型形成“长期记忆”的关键，因此也被称为“大模型的海马体”。

除了记忆能力，向量数据库还解决了大模型实时信息更新的问题，还能提高推理效率并降低幻觉，同时在隐私数据不能用于训练时担任信息传递载体……

作为大模型基础设施，无论是在大厂还是初创公司，向量数据库都是一个热门的研究方向。

Google、微软、Meta等传统互联网大厂，都相继在其云服务平台中推出了自己的相关产品。

初创公司方面，Zilliz、Pinecone、Weaviate、Qdrant等公司也是异军突起。

比如成立于上海的Zilliz，其所研发的向量数据库在笛卡尔出现之前就是ANN-Benchmark榜上的王者。

阿里云、腾讯云、微软Azure、亚马逊AWS等国内外知名云服务厂商，都部署了Zilliz的产品。

而除了产业界，向量数据库在投资人眼中同样具有重要地位。

比如前面提到的Zilliz，总计融资金额就已经超过了1.1亿美元。

OpenAI的向量数据库合作方Pinecone，成立至今一共完成四轮融资，总金额更是达到了1.38亿美元。

而像Weaviate、Qdrant等小一些的创业公司，融资金额也都达到了数千万美元。

总之，随着大模型发展进入白热化阶段，零一万物在这时加入这场竞争，向量数据库之后格局会如何变化？值得期待。

向量数据库零一万物

克雷西

Claude网页版接入MCP！10款应用一键调用，开发者30分钟可创建新集成2025-05-02
1450亿！马斯克xAI与X合并后再寻资金，将成史上第二大初创企业单轮融资2025-04-27
挤爆字节服务器的Agent到底啥水平？一手实测来了2025-04-23
电视装了智能体，只凭台词就能找到剧集了2025-04-24

向量数据库王冠易主！零一万物新成果登顶权威榜单，比前SOTA领先最高286%

包揽权威榜单六项第一

采用全栈向量技术增强性能

大模型重要的基础设施

相关阅读

给大模型持久记忆！GitHub 2万星向量数据库云服务升级，国内云产品7月上线

李开复：零一万物2C单款产品今年预计收入过1亿元，产品ROI接近1

2024年，百万上下文依然没有杀死RAG

腾讯云大模型领域新动向！向量数据库作为独立产品推出，8月上架

不怕OpenAI断供！零一万物“二折平替GPT计划”上线

百万token上下文窗口也杀不死向量数据库？CPU笑了

热门文章

又一开源AI神器！将机器学习论文自动转为可运行代码库

全栈AI基础设施支撑，跑出全球首个开放使用视频生成DiT模型

人人可用的超级智能体！100+MCP工具随便选，爬虫小红书效果惊艳

Qwen3真香！通义App满血接入，一手实测在此

当购物用上大模型！阿里妈妈首发世界知识大模型，破解推荐难题