字节造芯新进展：编码提升30%、转码“以一当百”，将服务火山引擎

十三 2023-08-23 13:36:49 来源：量子位

转码“以一当百”

允中整理自火山引擎

量子位 | 公众号 QbitAI

去年7月，外界曾有字节造芯传闻，字节跳动副总裁杨震原在媒体采访中回应称，公司无通用芯片商业计划，没有涉足CPU、GPU等通用芯片业务。

自研芯片探索主要围绕自身视频推荐业务展开，研发团队将为字节跳动大规模视频推荐服务专用场景定制硬件优化，如视频编解码、云端推理加速等，以期提升性能，降低成本。

8月22日的一场活动中，字节跳动旗下火山引擎首次公开发布了自研的视频编解码芯片。

据字节跳动视频架构负责人、火山引擎视频云架构技术总监王悦介绍，这款专用芯片已出片。

经验证，该芯片的视频压缩效率相比行业主流硬件编码器可提升30%以上，未来将服务于抖音、西瓜视频等视频业务，并通过火山引擎视频云开放给企业客户。

以下为王悦演讲全文：

大家好，我是字节跳动视频架构负责人王悦，今天主要与大家分享：面对全行业视频化时代的技术挑战，火山引擎视频云是如何在算力、体验和交互层面进行探索的。

首先，视频化应用在全行业不断深入渗透，视频数据也在持续激增，视频技术和应用在未来主要面临哪些大的挑战呢？我们认为，有三个边界需要突破：

第一个边界是算力边界，视频数据不仅体量在激增，分辨率和清晰度也在持续提升，而且，视频压缩和处理的算法在不断的更新迭代，越来越复杂，因此视频转码和处理的算力需要能够跟得上。但同时，摩尔定律在持续变慢，如何为企业提供算力强、算力足且够便宜的计算基建，是当前视频行业面临的最大挑战；

第二个是体验边界，用户会持续追求极致体验，希望视频更清晰、更流畅。那到底多清晰才是终点呢？随着越来越多的内容被AIGC技术所生成或加工，对这类内容质量的定义和评判标准，以及处理的算法和流程，可能都要跳出现有的基于信噪比的理论框架，重新探索体验的边界在哪里；

第三个是交互边界，近几年沉浸式媒体方向在持续加温，视频的观看体验在逐步从二维画面延伸到三维空间，给予交互更多的自由度。虚拟世界与现实世界将无限融合。今年苹果发布了vision pro，带给了大家一些新的憧憬，也许已近百年的二维画面的呈现与交互边界很快将被突破。

下面我们看一下，火山引擎视频云做了哪些探索和实践，以突破这三个边界。

首先，应对算力挑战，火山引擎视频云基于抖音的大规模应用实践和打磨，实现了从通用计算到异构计算的进阶，沉淀了可以为不同视频场景提供专用且适用的算力支持，不断朝着更强大、更好用、更便宜的方向前行：在我们的异构计算集群中，除了先前主流的x86机器，还有GPU、ASIC、FPGA、ARM板卡阵列等几种不同的计算资源。

对于深度学习、并行计算、高性能渲染，我们会用GPU做算力支撑，主要应用在视频画质检测与分析、质量增强处理、XR云端渲染等场景。

ASIC算力是我们重点规划的研发方向，今天，我们也正式推出火山引擎自研视频编解码芯片。这款芯片有几个数据还是值得兴奋的：

一台视频编解码芯片服务器的转码能力，相当于百台CPU服务器的算力；同时火山引擎自研视频编码芯片的压缩效率也相当优秀，比行业主流硬件编码器提升30%以上；从而，可以让单个视频的计算、存储和传输的边际成本达到平衡。

大家知道在（视频）芯片这个领域，一定要达到一定的规模门槛，累加的边际收益才能够cover前期投入的沉没成本，实现正向的ROI。正是因为抖音等产品的业务规模，为我们供给了一个十分宽广的获得杠杆收益空间，使我们可以在这个方向持续投入顶尖研发团队，不断迭代和进化，最终实现更高密度、更好压缩性能和更极致降本。

我们还支持FPGA算力，它是一种比较折衷的算力资源。相比ASIC，FPGA的密度、吞吐虽然差一些，但它的主要优势是可擦写、更灵活，能够完成渐进迭代，也为我们的ASIC方案提供了先行验证。火山引擎视频云现在的图片和动图转码服务都是跑在FPGA上的。部分点播、直播服务里也在使用FPGA，该编码器整体编码性能比行业标准编码器(GPU)提升30%，在MSU赛事中多次蝉联最佳4K FPGA编码器称号。

此外，火山引擎视频云还有ARM板卡阵列，这个方案本来是用来支持云游戏、云手机等场景需求而研发的。我们把编转码和处理引擎在ARM指令集上深度集成和优化之后，经过大规模实测，发现这种算力资源在密度、成本方面相较x86服务器也有很大优势。因此，我们也在点播场景里不断提升这种资源的使用量，并做到了与云游戏等场景的并池降本。我们这个方案也在不断地迭代与演进，相信对于视频应用的智能升级也将发挥重要的作用。

在突破体验边界方面，随着大模型等AI技术的发展和赋能，我们也确实看到了很多有说服力的成果和乐观的前景，比如「AI修复」技术。上周，抖音、中国电影资料馆、火山引擎发布了“再续时光-经典香港电影修复计划”，我们首次将AIGC视觉大模型应用于老片修复场景。充分利用AIGC大模型强大的生成能力和丰富的先验知识，对经典老片进行全面的画质提升。

火山引擎视频云的很多产品能力都有AI技术的加持，例如「智能转档」使用了AI重采样方案，满足了高质量多码率分发需求，支持直播、点播多档位画质提升；「极致超清」是基于人眼的主观感受最优为基准的AI前处理方案，该方案不仅可以提升主观画质，还可以进一步实现整体带宽降低15-35%。

再看看我们在突破交互边界方面的一些进展和成果。在3D和全景技术方面，火山引擎视频云基于在PICO上的实践和探索，沉淀了很多优质的能力。比如，我们的「VR 360°全景图像」技术，在今年CVPR Workshop举办的一项比赛中，双目超分双三次插值保真赛道和360°全景图像超分赛道上，荣获了双料冠军，技术能力达到行业领先水平。

从二维到空间，从理论到实践，火山引擎视频云落地了很多创新项目，努力为用户打造身临其境的体验。结合传统三维重建及神经辐射场技术，我们搭建了一套用于实现复杂动态场景的采集、重建、和播放算法框架，具备很高的清晰度和真实感。这项技术融合在点播、直播及RTC等视频云技术产品中，便可以实现空间视频的点播、直播和实时通信，已经落地于「抖音嘉年华」「抖音戏腔戏调」「PICO古籍寻游记」等项目里，相关成果发表在今年的Siggraph上。

另外火山引擎多媒体实验室自研的三维重建技术，结合视觉重建、多模态重建及SDF技术，可实现高精度、高质量、高效率的自动化重建技术，用于高保真物品及空间重建，也已经应用在博物馆文物重建、电商3D商品、懂车帝3D看车、幸福里VR看房，PICO德爷看非洲等项目中。

当技术面临瓶颈，也许我们可以换一种姿势奔跑，持续突破算力，体验和交互的边界。我们希望基于抖音大规模实践和打磨，将沉淀下的火种贡献给行业。

通过上面的技术分享，我们可以看到全行业视频化时代，技术是纷繁复杂的，而在这个过程中作为“引擎”的视频处理框架作用就越来越重要，同时也面临着诸多挑战。

接下来我会介绍火山引擎视频云在这一领域所做的探索实践，同时把我们联合NVIDIA开源的多媒体处理框架BMF（Babit Multi-Media Framework）介绍给大家，这也是国内首个开源的同类项目，希望对整个行业起到普惠作用，助力加速视频化新进程。

△NVIDIA开发与技术部门亚太区总经理李曦鹏（左）和火山引擎视频云架构技术总监王悦（右）共同宣布开源BMF多媒体处理框架

在实际算法和工程化落地的过程中，很少有项目可以完全不采用多媒体处理框架。多媒体处理框架作为视频化部署的“底座”，通常起到重要的支撑作用。在体验需求更高、快速试错创新和业务场景融合的新趋势下，面对的场景和需求越来越多样化和复杂化，同时对计算性能和异构计算资源的运用也提出了更多的要求，快节奏的创新速度也迫切的期望框架有强大的能力，能帮助开发者把各种能力和方案优势互补、协同工作、快速落地。传统框架不能很好地应对这些挑战，下一代多媒体处理框架应运而生。

我们开源的这套多媒体处理框架，作为火山引擎视频云全链路服务能力的基础“底座”，不断地根据集团各个业务和产品的需求进行设计、规划、迭代和线上打磨，经历了约3～4年的实践，目前已应用于点/直播转码、云编辑、移动端后处理等主要业务场景。总结下来，相比传统方案，BMF具有以下亮点：

首先，它能支持使用多种语言开发模块，并能通过引擎无缝串联在一个pipeline里执行，还能通过插件化动态管理，提升开发效率；其次，它能实现调度引擎深度优化，在提升灵活性的同时做到效率无损，对于异构平台的支持相比传统框架有较大优势。它还可以支持多语言接口，对于不同语言的开发者非常友好，更容易上手，开源版本还提供了丰富示例，覆盖主要视频场景，使开发者可以低成本构建视频应用。同时，它还完全兼容了ffmpeg的功能和标准，底层支持了多种框架间的数据高效互转。

接下来我们具体看下BMF的整体架构，它分为应用层，框架层，模块层，和硬件抽象层。在应用层，BMF可以对从生产到消费的全链路视频场景进行支持，特别是它也会支持大量视频AI的应用场景，并在架构层自研了“自驱调度”和“动态graph”引擎，适配不同场景的多种执行模式。

在模块层，BMF在设计之初就采用了“松耦合”设计，目前已积累了140+个适用于视频场景的原子能力模块。在硬件抽象层，BMF对多种主流框架的数据实现了无缝转换，使多种主流框架数据互转和协同工作变的更加顺畅和便捷。这里值得特别强调的是，我们和NVIDIA进行了紧密的合作，针对GPU相关的框架层能力、处理能力进行了深度优化。

借此机会，我也特别分享给大家，BMF目前已经全面开源。包含BMF框架层整体开源，9个开箱即用案例，和20+API调用范例，希望能帮助开发者低成本的构建视频应用。开源以后，我们计划持续开源更多核心能力，完善解决方案，包括支持更多异构硬件/更多原子能力/移动端支持等。同时，依托火山引擎，构建云上模块市场，加速视频生态建设。

最后，希望我们的愿景早日达成：面向各行各业，加速视频化进程，共建视频开发生态。

字节跳动火山引擎芯片

十三

字节造芯新进展：编码提升30%、转码“以一当百”，将服务火山引擎

相关阅读

Nature子刊 | NUS、字节首次将AI元学习引入脑成像领域

斩获“卡脖子”领域世界冠军！这支华科战队全网刷屏，平均年龄24岁

多篇论文入选Interspeech 2023 火山语音有效解决多类实践问题

字节跳动回应自研芯片：在组建相关团队，探索AI芯片领域

中国芯片开发者“流片难题”怎么解？这份白皮书给出一份答案

登临科技联合创始人王平：创新+自研“双核”驱动，GPU+赋能AI落地生根｜量子位·视点分享回顾

热门文章

AI应用突围，中小企业的新周期已至

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器

阿里云造“Agent工厂”，百炼MCP服务上线，无需代码5分钟建Agent

全球首个Linux开发本：50TOPS算力，DeepSeek都配好了，可随地大小开发