首款国产存算一体芯片发布!12nm工艺追平英伟达Orin,车规量产支持L4

物理算力256TOPS,功耗35W

曹原 发自 副驾寺

智能车参考 | 公众号 AI4Auto

国产智驾芯片,首次追平英伟达!

鸿途™H30,物理算力256TOPS,略高于Orin-X的254TOPS,芯片制程12nm,功耗35W,还是车规级可量产

不用最先进制程工艺,自主量产芯片就已追上行业一流标准。

怎么实现的?自研存算一体技术

鸿途™H30包含多个存算单元,既能存储数据也能处理数据,打破传统芯片性能瓶颈并提升能效比,实现大算力、低功耗、低成本。

并且,鸿途™H30支持运行点云网络、BEV网络,能支持L4级自动驾驶。

这也让鸿途™H30成为国内首款存算一体智驾芯片。而这个芯片,来自成立仅2年多的后摩智能

鸿途™H30:大算力、低能耗、低成本

鸿途™H30,12nm制程,256TOPS算力,功耗35W,支持外扩Memory,最高带宽为128GB/s,以及16路 FHD Encoder/Decoder,和PCIe 4.0,x8,x4,x2,RC&EP mode。

首款国产存算一体芯片发布!12nm工艺追平英伟达Orin,车规量产支持L4

和其他智驾芯片不同,鸿途™H30最基本的组成单位是自研存算单元,基于SRAM的纯数字设计,实现存内运算,在存储器内能完全实现数据处理。

首款国产存算一体芯片发布!12nm工艺追平英伟达Orin,车规量产支持L4

为了满足车规级标准,鸿途™H30内嵌自研检测机制、修复机制和硬件增强机制,保证芯片的可靠性和稳定性。

首款国产存算一体芯片发布!12nm工艺追平英伟达Orin,车规量产支持L4

并且针对AI算法,鸿途™H30基于自研IPU(Intelligence Processing Unit)架构——天枢架构,通过多核、多硬件线程以及双环拓扑总线的设计,保证计算资源利用效率的同时可以灵活扩展算力,以及更灵活的数据传输。

首款国产存算一体芯片发布!12nm工艺追平英伟达Orin,车规量产支持L4

最终体现在智驾能力上,鸿途™H30上可以运行智能驾驶主流的点云网络、BEV网络,并且已经在无人配送车上完成路测,具有避让前方行人、识别红绿灯等能力。

首款国产存算一体芯片发布!12nm工艺追平英伟达Orin,车规量产支持L4△后摩BEV模型实测

和行业其他存算一体芯片相比,鸿途™H30能实现高达4.608Mb的单位存储容量,8bit输入和权重精度,全精度输出,计算延迟仅有1.5ns,能量效率高达30-150TOPS/W。

首款国产存算一体芯片发布!12nm工艺追平英伟达Orin,车规量产支持L4

基于鸿途™H30,后摩智能推出力驭®智能驾驶计算平台

首款国产存算一体芯片发布!12nm工艺追平英伟达Orin,车规量产支持L4

只需要一颗鸿途™H30,CPU算力为200KDMIPS,并且支持所有摄像头、雷达、激光雷达等传感器的接入要求,拥有8路以太网、14路高清摄像头和10路CAN/CAN-FD接口,功耗85W。

为了各智能驾驶玩家,后摩智能还推出后摩大道™软件平台,官方称提供的工具链更易用并且更高效,能降低学习成本,让开发者更快上手。

首款国产存算一体芯片发布!12nm工艺追平英伟达Orin,车规量产支持L4

芯片、域控器、软件平台,智驾芯片玩家有的后摩智能都有。那么问题就来了,市面上已经拥有足够多成熟量产智驾芯片,为什么后摩智能还要费力自研?

为什么需要存算一体芯片

要回答这个问题,先回到智驾芯片的基本结构。

现在赛道内各玩家的智驾芯片架构都差不多,存储器(SRAM、DRAM等)和处理器(CPU、GPU)*独立存在,通过总线连接处理数据,运行算法。

首款国产存算一体芯片发布!12nm工艺追平英伟达Orin,车规量产支持L4

为了实现更高算力,各玩家都是通过提高制程工艺,从12nm卷到7nm,再卷到5nm。比如英伟达Xavier是12nm,更高算力的Orin-X是7nm。

首款国产存算一体芯片发布!12nm工艺追平英伟达Orin,车规量产支持L4

但这也会带来几个问题:高成本、影响可靠性、高功耗,芯片容易进入性能瓶颈

更高工艺要求,难度和流片成本都会增加。反映在智能车型上,就是高算力智驾芯片只能成为高端车型标配,最便宜也要二三十万,入门级车型智驾水平通常减半甚至更低,车主没法体验更高阶的智能驾驶。

并且,随着技术逐渐逼近尺寸极限,比如1nm以下,会导致电流泄露现象或者漏电问题,降低芯片性能甚至导致芯片失效。

首款国产存算一体芯片发布!12nm工艺追平英伟达Orin,车规量产支持L4

更核心的问题在于,现在芯片计算依托的冯·诺依曼架构存算分离,执行运算时要在存储单元和计算单元之间不断搬运数据。

现在存储单元和计算单元运行速度不匹配,芯片整体运算效率已经受到影响;并且更频繁地搬运数据会造成处理时延和更高的无用功耗,占比可以高达60%-90%。

因此,后摩智能通过改变芯片的底层设计结构,整合处理器和存储器,从根本上打破这些性能瓶颈。

性能指标方面,在Resnet50 Batch=1和Batch=8上,鸿途™H30分别是友商8nm智驾芯片的5.7倍和2.3倍;计算效率方面,鸿途™H30更是达到友商的11.3倍和4.6倍。

首款国产存算一体芯片发布!12nm工艺追平英伟达Orin,车规量产支持L4

更重要的是,基于成熟12nm工艺意味着更低成本,未来入门级的车型也能用上高阶智能驾驶,让更多车主受益。

除了发布鸿途™H30等产品,后摩智能还预告了下一代的产品规划:能扩展大模型应用边界的二代IPU天璇结构,以及基于天璇架构,在自然散热条件下的最高算力智驾芯片鸿途™H50,明年推出。

后摩智能是谁

可以做到存算架构、电路设计、编译器及软件栈开发等全链路芯片研发的公司,自然离不开技术人才的储备。

CEO吴强,普林斯顿大学计算机博士,论文研究方向为高能效比计算芯片及编译器。毕业后在英特尔、AMD、Facebook、地平线等多家企业工作,曾是AMD的GPGPU/OpenCL创始团队核心成员,Facebook总部资深科学家,以及地平线技术副总裁和CTO。

吴强博士的学术成果获得过第38界计算机体系架构顶会MICRO-38唯一一个最佳论文奖,科研成果被美国业内杂志IEEE Micro 评选为年度最有影响的12个科技成果之一,还多次担任国际会议项目委员会委员,以及国际期刊的客座主编。

芯片研发副总裁陈亮,本硕博毕业于清华大学,曾任阿里技术总监、海思CPU芯片资深架构师、地平线AI芯片首席架构师,具备十多年高性能CPU/FPGA/ASIC芯片内核设计及量产经验,主导过多款AI芯片设计,拥有美国及中国芯片相关发明专利近20项。

产品副总裁信晓旭拥有15年以上计算芯片产品、市场和销售经验,是原海思计算芯片产品总监,负责过自动驾驶、安防、数据中心等多款AI芯片的产品定义和市场推广,还是凯为半导体(Cavium)中国区创始团队成员之一。

另外,后摩智能研发团队成员也大多来自普林斯顿大学、斯坦福大学、新加坡国立大学、加州大学、清华大学、北京大学、电子科技大学等国内外知名高校,以及英伟达、TI、AMD、华为海思、地平线等一线芯片企业。团队硕博比例达70%以上。

2020年,吴强、陈亮、信晓旭等人在一家沙县小吃开始了创业之路。成立不到三年,公司已经完成三轮融资,包括金额达1000万美元(约6935万元)的天使轮融资。投资方包括经纬创投、联想创投、启明创投、和玉资本等。

另外,后摩智能已经和20余家主机厂、20余家Tier1和至少15家算法提供商达成合作,鸿途™H30首批Alpha用户测试将在今年6月开始。

能拿出产品、产品能量产,后摩智能已经达成两个重要的里程碑。现在可以等等看,后摩智能会拿下多少订单。

版权所有,未经授权不得以任何形式转载及使用,违者必究。