上帝不掷骰子？商汤科技AI大装置想试试

雷刚 2021-05-25 13:04:52 来源：量子位

李根发自凹非寺
量子位报道 | 公众号 QbitAI

对撞机，发现新物理粒子的方法和装置。

众所周知的高能物理基础设施，人类基础物理领域研究的集大成成果。

现在，商汤科技也搞了一个，同样是其多年产学研积蓄后的成果转换，是其最新技术成果的集大成体现，是一整套完整的AI基础设施。

取名SenseCore商汤AI大装置。

商汤CEO徐立说，这是商汤长线核心竞争力的标志、公司持续经营和更大规模跃迁的护城河，以及推动AI时代生产要素降低的关键一步。

实际上，企业家一面的徐立对此还显得克制，当他科学家的那一面流露，会激动得语速飞快：

靠人脑的方式可能永远赶不上宇宙膨胀的速度，如果要真正解开宇宙真理，输入的依据就不能单靠此时此地此身的人类有限认知，甚至不必追求当下的过程可解释，可以试着用更大的数据，更强的算力，或许还会撞出更多预期之外的结果。

所以商汤的AI大装置，你可以理解为GPT-3、AlphaFold路径上的更大规模落地，是大数据、大模型和超强算力的三位一体实践，也是input到output之间沿着“大致正确方向”的大力出奇迹。

商汤AI大装置如何组成？

在上海临港新片区，一座宛如芯片的建筑群将在今年年底投入使用。

这是商汤全新的AI算力中心（AIDC），计算峰值速度将达到3740 Petaflops（1 petaflop等于每秒1千万亿次浮点运算）——作为参照，OpenAI的千亿参数模型GPT-3完整训练一次需要3.14E23次浮点运算，而商汤临港AIDC的算力仅在一天内即可完成。

毫无疑问，商汤的这个全新AIDC，目标就是为更大规模参数模型的训练而来。

但在商汤AI大装置中，AIDC不到1/3又1/3。

商汤AI大装置SenseCore的全貌，包含了三层：

算力层（AI芯片及处理卡+AIDC+AI传感器）
平台层（模型生产+训练平台+数据平台）
算法层（算法工具箱+开源框架）

三位一体，以基础设施方式输出模型，把AI能力输出到企业服务、城市管理和个人生活等三大落地方向中。

区别于“AI模型”小作坊式的打造，AI大装置更像流水线工厂，可以实现不同场景的算法模型的底层抽象，以模块化平台套件打造通用型服务平台。

特别是针对AI落地中更长尾的客户和场景，能够在组合不同算法套件的基础上完成新场景的定制，以低边际成本实现对新场景的规模化覆盖。

并且商汤基于AI平台基础设施的系统协同性，可以以半自动化、自适应的方式，就能实现批量的算法模型生产和迭代升级。

为什么商汤要搞AI大装置？

商汤CEO徐立说，本质是让AI落地摆脱人力密集的状态。

他认为AI之所以人力密集，是因为生产效率不高，而生产效率提升的关键，是生产要素的成本能足够低。

在AI落地初期阶段，项目定制是行业最普遍的方式，比如做一个手机检测的算法，需要上百人的团队，但换一种场景的应用模型，又得上百人进来……

好比不同的场景里盖楼，堆人是解决问题常用的方法。

但如果按照上述项目包工的方式搞，AI落地就会显得天方夜谭。

商汤的模式不是秘密：“商汤驱动，赋能百业”，用“1（基础研究）+1（产品及解决方案）+X（行业）”的方式展开各行各业的落地。

据官方数据，创办6年来，商汤集结起一支2000人规模的研发团队，推出了13000多个技术模型，以及17000多个商业模型。

所以规模化多场景不同领域落地的过程中，就提出了通用模型的要求。

只是问题也随之而来，模型越通用，训练数据就越大，模型参数也越大，对算力的要求也就越高。

在GPT-3一炮打响之前，对于这种大规模参数的通用模型，业内外都存在质疑。

因为之前的共识是：越厉害的算法，参数和算力可以更少，提升模型精度才是正道。

而且这种“精妙”著称的算法方向，意味着模型对于运算和执行的精准部署，就像数学解题中，严丝合缝地过程推导，最后精准给出结果。

所需的“算力”，理应越少越好。

要来一个暴力解题的方式：吃最多数据，一通暴力计算，最后给出结果——即便是正确答案，也不被推崇。

商汤起步伊始，为手机、互联网公司供应AI方案，走的就是精妙模型的路线。

但随着规模化扩张，开始进入To B行业和城市业务领域后，精妙技术模型在行业长尾需求和应用中的“短板”也就暴露出来。

比如在业务落地中，优先选择的自然是流量大、显示度高、高频，投入产出比高的头部应用。于是大家争夺的就是像地铁刷脸通行这样的应用。

而城市里防火、防水等应用，频次低，需要累积和投入的资源又一点不比头部应用少，虽然有刚需，但处于长尾端，不受青睐。

最终，从需求方角度，如果不能在一个场景里解决包括长尾在内的问题，切换新方案、并为此买单的意愿就会降低。

所以从AI落地的商业化和价值闭环出发，从需求端推动来看，“眉毛头发一把抓”，大参数模型也就变得自然而然。

此外，AI技术的演进路线上，反共识的趋势从更多维度显现。

从AlexNet以来看过去十年AI模型的发展，每年最新的算法网络、最好的技术，对于算力的需求，几乎是呈数量级的增长，每年都大概会有十倍的算力需求增长。

徐立躬身其间，对这种趋势的感知也非常明显。

他认为造成这种趋势的原因其实很简单：表达越来越丰富，模型越来越通用，参数也就越来越多，算力要求也就越高。

行业整体而言，最领先的算法对于算力的需求翻了近百万倍。

其次，技术本身的演进。

原先的技术路线朝着单一方向、单一路线前进。通用AI看起来可望不可及，然而过去几年在通用问题的刚需驱动下，一些通用语言模型、通用视觉模型，甚至通用多模态模型开始取得突破，曾经不work的正在变成可能。

商汤CEO坦承，通用模型的打造确实花费了大力气，但好处是在长尾问题解决上效果显著。

伴随而来的挑战，是对新一波以算力为核心的AI基础设施的渴求。

“就好像在物理探索中，如果没有粒子对撞机，很多核心工作没法展开。”

徐立强调，商汤在AI规模化落地的大潮里，必须到了解决通用模型挑战、必须有集中化大规模算力的时候。

他回溯称，2016年、2017年开始，商汤就开始了大参数模型的挑战，SenseNet被做到了1000多层。

随着模型网络越深、参数越大，算力的问题变得突出。

于是2018年开始，商汤开始更加严肃地审视芯片、硬件，并在自建算力中心的基础上，完成了大装置的“原型机”打造。

其后，投资56亿的AIDC智算中心开工，2021年底交付。

当然，过程中还发生了两件AI领域的最大新突破，给商汤上下吃下定心丸。

一件发生在2019年，OpenAI开始大参数模型打造，并在2020年以GPT-3轰动全球。

另一件则是DeepMind的AlphaFold 2。

在徐立看来，两大不同方向的进展，背后其实有同一个核心路径：

输出方向大致可确定，输入更大的数据，“撞”出结果。

而商汤的AI大装置，不正是这种核心路径的实践机器、基础设施，AI领域的粒子对撞机吗？

AI大装置有什么用？

自然是可以打造大参数模型。

首先可以解决AI落地中的长尾问题。

比如在城市的日常治理中，把“城管”的工作场景，实现全AI流程覆盖。

无论是暴露垃圾的问题，共享单车乱堆乱放的问题，还是疫情、火灾、汛情、人群拥挤踩踏、危化品泄露……等等公共场景中的各类问题，不管高频还是低频，都能实现一站式解决。

从发现、报警、执行到结案，全流程都可以实现AI化，用人机交互的方式实现更加高效的城市治理。

而且这不是设想，是商汤用AI大装置原型机，在上海一网统管项目中落地的现实。

其次，大参数模型的打造，还是批量打造的那种。

按商业场景分，大的如城市、汽车、工业，小的像螺丝螺帽、冰箱内物品识别……

按技术场景分，视觉领域、语言领域、自动驾驶领域、医疗领域、制药领域……

每一个领域，是不是都可以足够多的数据输入，然后用大装置对撞生成结果？

比如在蛋白质结构预测方向，之前即便用AI的方法，也需要既有非常懂生物的专家，还得非常懂AI的专家协作……双方精心设计流程，精心准备输入数据，最后才有可能得到正确的结果？

大装置会有什么不同？

知道大致正确的方向和目标，就是预测蛋白质结构，但不用精心准备输入数据和流程，甚至可以群策群力，把所有可能相关的数据都输入，最后“大装置”穷尽所有可能性，同样解出正确的结果。

所以沿着这个层面展开，AI大装置意味着落地门槛的降低。

从AI展开行业落地那一天开始，主导权到底是归属AI博士们，还是传统行业老兵的话题，讨论从未有过间断，也从未有过共识。

最具参考的一种答案是既要也要，强调融合共生。

然而如果需要融合，那落地的规模和速度自然就会大受局限，毕竟懂AI、掌握AI能力的人，相比传统行业人才，实在九牛一毛。

而作为基础设施，AI大装置在本质路径上，把AI能力变成了一个输入→输出的机器和工具。

运用这个工具的，可以来自任何行业和领域。

只要有数据思维，定义清楚目标方向，懂得找可能的数据，然后大装置就跟“相机”、“电脑”没有本质不同，都是工具。

所以徐立说，这就是为什么商汤把AI教育作为重要业务组成的原因。

“现在的教育告诉年轻人，需要每一步严格推导产生正确结果才能给分，但未来可能也有一种得出正确结果的方法，不需要你掌握推导过程。”

用好你需要的数据，知道如何操作和使用，然后把数据放入“装置”，一样能解题。

这也是为什么会有一种观点认为：下一个柯洁李世石一样的围棋高手，不一定要学围棋。

实际上，这种思维下，教育方法确实值得被重新审视。

毕竟现如今我们称赞的“计算天才”，不是口算、心算最厉害的那类人，而是最懂得如何利用计算机工具的人。

当然，如果沿着“AI大装置”的思路，扩展到更宏观的“认识世界”，人类对于规律的发现和认知，是否也会被刷新？

人类对于世界的认识和改造，究竟是一种怎样的模式？

亚里士多德提倡演绎，这是一种强调因果的强推导，是一种线性的演进和发展。

但另一种模式，牛顿的时代、爱因斯坦的时代，展现的却是跃迁式进步。

他们带来的基础理论突破，当时甚至只是一种“假设”，是在其后一代甚至几代天才归因中，才完成过程论证。

只是历史车轮相似的是，每一次基础理论的突破，都带来一波更有力量的发明创造和更高级的文明。

徐立把这种天才推动的文明跃迁，笑称为“上帝拍脑袋”。

不过更令他着迷的是，接下来是不是可以由大装置来拍？

回顾过去，人类的科学探索都是基于已知认知推未知，毫无疑问就会受限于“已知认知”，更何况人类历史上不少重要的发明和发现，还是“无心插柳”的结果。

但AI大装置提供的新范式，提供了另一种路径：

探索未知，可以不依赖于人类已经理解的输入来作为输入，可以尝试把更大更多的数据放进来，搞不好就能找出更趋近本质的规律。

而AI最终极的工具能力，不正是帮助人类发现、找出更多，更终极的规律和真理吗？

刷新商汤

最后，在AI大装置浮出水面之际，也是时候重新审视商汤。

商汤是一家什么样的公司？

创办6年来，它备受瞩目，但又面目“模糊”。

商汤时常被谈论它的规模增速和融资估值，也始终被热议“AI赋能百业”的可能性和可行性。

更因为其落地领域广泛，技术和产品不直接To C，又容易在舆论认知中被盲人摸象。

但现如今，最新集大成成果AI大装置建立完成，商汤的归去来都得到了最好的连点成线，商汤的核心和边界、商汤的护城河、商汤从技术到商业的可持续，以及商汤将会带来的AI变革，都能在AI大装置得到完整解答。

在AI大装置的思路之下，商汤把聚集的AI博士之力，架构成了不需要AI博士才能使用的AI工具，并且可以在各个领域都实现输出和赋能。

就像电被发现后，发电机和发电厂所承担的角色一样。

徐立透露，2018年开始大胆设想时，这种发展路线甚至是反共识的，但商汤内部还是顶住压力，做重做深，碰硬件碰底层，然后一搞就是3年。

这有点像黎明前的登山，知道在向上走，却不知道是否是登顶的正确道路。

好在OpenAI的GPT-3、DeepMind的AlphaFold，以及越来越多业内巨头玩家拿出的超大参数模型，不同维度验证了这确实是一条通向未来的路。

徐立还透露，按照内部规划，硬件成本投入56亿起的AI大装置，在开起运行的2年后就能回本，到2025年就会进入盈利轨道。

这是商汤面向未来的长线核心竞争力，而建立这种长线竞争力的时间周期，则构成壁垒和护城河。

更重要的是，AI大装置启动，AI赋能的门槛进一步降低，整个数字化和智能化的进程，就会进一步被加速。

商汤当前的北京办公室所在地，理想国际大厦，是上一代原创技术公司百度，从技术创新到商业创新的“福地”。

徐立也喜欢用搜索引擎来类比“AI大装置”会给商汤、给AI行业带来的变革。

他认为今天互联网的繁荣，是因为搜索引擎成功地把信息——高频的、低频的、高价值的、长尾的，在虚拟空间实现了链接。

而现实世界，始终缺少一样的“搜索引擎”。

因为现实世界中很多东西还无法结构化的、可解析。但AI大装置如果成功，就能加速这种真实世界的结构化、数字化。

顺理成章，互联网发展中两大核心技术——搜索和推荐，也就能在现实世界得到复刻和应用。

并且相比互联网经济创造的价值，人类更大一部分的经济活动和创造，原本就在线下。

所以徐立坚信，AI正在进入下一个时间点，一个从技术创新周期转入商业创新周期的时间点。

“搜索引擎起来的时候，有围绕搜索引擎创业的生态；视频平台起来的时候，有围绕视频平台展开的商业生态。”

这位商汤联合创始人说，很多人问他，AI创业是不是过时了？

他的回答是：

恰恰是正当其时的时候。

— 完 —

量子位 QbitAI · 头条号

关注我们，第一时间获知前沿科技动态签约

AI AIDC AI大装置商汤对撞机徐立汤晓鸥

雷刚

上帝不掷骰子？商汤科技AI大装置想试试

商汤AI大装置如何组成？

为什么商汤要搞AI大装置？

AI大装置有什么用？

刷新商汤

相关阅读

比LoRA更高效！上交大&哈佛推出新微调框架，瞄准特定任务方向

人民大学的AI学院，教师团队很凡尔赛

就算是戴上口罩，AI也知道你在说什么丨EMNLP 2020最佳论文

想不到！智能运维的正确姿势：从临场救火到淡然饮茶

谷歌AI生成视频两连发：720p+长镜头，网友：对短视频冲击太大

CVPR 2020商汤斩获3冠！62篇论文入选，“算法工厂”凭什么领跑行业？

热门文章

AI应用突围，中小企业的新周期已至

全球首个Linux开发本：50TOPS算力，DeepSeek都配好了，可随地大小开发

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器

阿里云造“Agent工厂”，百炼MCP服务上线，无需代码5分钟建Agent

倒计时1周！20余位行业大佬共话AI，中国AIGC产业峰会最全攻略在此