运行LIama2得8400万元！最快AI推理芯片成本推算引热议

白交 2024-02-21 15:58:03 来源：量子位

英伟达GPU成本只需30万美元

白交发自凹非寺

量子位 | 公众号 QbitAI

想实现史上最快大模型推理，得要1171万美元（8410万元）？？？

同等项目下，使用英伟达GPU成本只需30万美元……

关于最强AI芯片易主Groq，可能得让子弹再飞一会儿了。

这两天，Groq惊艳亮相。它以号称“性价比高英伟达100倍”的芯片，实现每秒500tokens大模型生成，感受不到任何延迟。外加谷歌TPU团队这样一个高精尖人才Buff，让不少人直呼：英伟达要被碾压了……

喧嚣过后开始出现一些理智讨论，其中主要还是针对Groq的效益成本问题。

网友粗略一算，现在演示Demo就需要568块芯片，花费1171万美元。

于是乎，业内业外各界人士不约而同地展开了一场算术大法。

甚至出现了位分析师，拿着表格现身说法……

并感叹了句：OK，everybody is doing public math this week.

不过Groq也第一时间在社交网络上进行了回应。

“每个人都在做数学”

参与到Groq成本问题讨论的，有计算机学生，也有同提供推理服务的云厂商，甚至还有Groq前员工大战现员工……好不热闹。

摘取几个有代表性的，我们来看看大家都是如何看待的。

首先一个粗略估计，一张卡的价格约为2万美元，内存又仅为0.23GB。

那么为单个LLama 70B模型服务，就需要购买大约320张卡（实际上更多），包括服务器在内大约花费1千万美元……

而要是跟英伟达的H100对比，情况又是如何？

Lepton的贾扬清也参与进来，算了一笔账。除了基本价格，他还从能源功耗、性能、运营成本等角度进行了分析。

最终总结出这几个核心观点：

对于LLaMA 70b模型，使用572张卡来计算，每年电费将花费25.4万美元；
使用4张H100卡可以实现Groq一半的性能，如今8卡H100盒子的价格约为30万美元。
如果运营三年，Groq 的硬件采购成本为1144万美元，运营成本为76.2万美元。相比起来H100采购和运营成本更低。

值得一提的是，在Groq给出的基准测试中，也包括了Lepton在内，推理速度大概是Lepton的三倍。

贾扬清还透露，他跟Groq创始人是旧相识了：

在谷歌时就相互知道。

不过在这些讨论中，也有其他算法。

比如有网友反应，按照单个Token价格这个维度来计算，情况又是如何呢？

没关系，还有更专业的分析师会出手。

不过根据他的计算，每100万Tokens的花费，Groq性价比是要高一些。

除此之外，还有一些其他的讨论，像是否支持加速任何Transformer？

Groq在线答疑

由于大家过于关注，Groq忍不住亲自下场解答。

是时候再发一个常见问题帖子来澄清了。

主要有以下几点：

采用开源模型，适应我们的编译器，然后运行它，仅此而已。
我们token价格很实惠很高效，因为从芯片到系统都自己搞，没有中间商；
不会出售芯片，但第三方供应商除外；公布的销售数据有偏差。
我们的目标客户不是单卡用户。

另外还在持续地在线答疑中……

所以Groq是否能真的撼动住英伟达的地位，估计还得再等一等。

不过昨天英伟达股价倒是异动了一波……

参考链接：
[1]https://twitter.com/GroqInc/status/1760113134566576558
[2]https://twitter.com/swyx/status/1760065636410274162
[3]https://news.ycombinator.com/item?id=39428880
[4]https://twitter.com/JayScambler/status/1759372542530261154
[5]https://twitter.com/DZhang50/status/1759839771487297637

GPU 大模型大模型推理芯片英伟达

白交

首个AI科学家发论文进ICLR！得分6/7/6，从选题到实验全程零人工2025-04-09
AI应用突围，中小企业的新周期已至2025-04-11
商汤大装置发放“1亿代金券”，全栈赋能场景落地2025-04-10
米哈游蔡浩宇新作iPhone实机演示：10分钟就被AI小美撩到脸红，她的命运由我掌控2025-04-07

运行LIama2得8400万元！最快AI推理芯片成本推算引热议

“每个人都在做数学”

Groq在线答疑

相关阅读

ARM确认：架构基于英国技术，可以与华为继续合作

榨干3000元显卡，跑通千亿级大模型的秘方来了

吉利、千里和阶跃深化技术合作，共启汽车全域智能新时代

英伟达AI游戏引擎炸场CES！NPC玩家实时交互，对话动作流畅似真人

英伟达新研究：不用动捕，直接通过视频就能捕获3D人体动作｜ICCV 2021

“大海捞针”out！“数星星”成测长文本能力更精准方法，来自鹅厂

热门文章

AI应用突围，中小企业的新周期已至

全球首个Linux开发本：50TOPS算力，DeepSeek都配好了，可随地大小开发

「千匹马力」被比亚迪打成白菜价：最新汉唐21万起售，比小米SU 7Ultra更小米！兆瓦闪充高阶智驾都标配

刚刚，商汤发布第六代大模型：6000亿参数多模态MoE，中长视频直接可推理

SOTA自动绑骨开源框架来了！3D版DeepSeek开源月大礼包持续开箱ing