MEET2020 | 快手刘霁：AI基础能力决定每个公司AI的迭代和落地效率

郭一璞 2019-12-20 13:13:20 来源：量子位

郭一璞整理自 MEET2020智能未来大会
量子位报道 | 公众号 QbitAI

快手这家短视频内容公司，已经成为人工智能C端落地的代表者。

面对海量的内容和内容生产者、消费者，快手无论是从对内容理解把控、消费分发还是各类商业化延伸应用，都将AI运用到了业务之中。

在短视频内容平台上应用AI，哪些事情是最为重要的？

AI是如何在快手为“老铁”们创造福利的？

AI又有哪些被忽视的应用场景？

在MEET2020智能未来大会上，快手AI平台负责人刘霁揭秘了这一切。

关于MEET2020智能未来大会：量子位主办，现场20多位行业大咖分享，1000多名行业观众参与，线上有近百万从业者通过直播参与观看和互动，包括新华社在内的数十家主流媒体报道，活动整体线上总曝光量超过千万。

要点

1、AI最大的源动力就是数据。

2、AI模型的训练是计算的过程，计算的效率决定了每个公司训练AI的效率。

3、对于快手这样的to C端产品，所有AI能力最后都体现在手机上，除了模型准确率之外，还有两个因素也特别重要：一个是能耗，一个是延迟。

4、直播是现在短视频行业变现非常重要的手段，几乎占到一半的比重。

5、内容推荐本质上是要匹配视频和用户，就像滴滴的场景是匹配司机和用户，两者本质上很类似。

6、游戏的AI、游戏冷启动、游戏的辅助设计，游戏关卡的设计、游戏数据的智能运营分析都是AI可以应用的场景。

刘霁演讲分享全文

注：量子位在不改变原意的基础上进行了编辑整理

今天很荣幸能够代表快手来讲一些快手在AI方面的探索，AI在快手有深厚根基，因为正如大家所知，快手的CEO、CTO等几位创始人都是技术出身，比如CEO宿华讲公司的代码库里他贡献了超过70万行代码，公司里他的代码量最多，所以快手其实是一家由技术基因驱动的内容的公司。

快手是一家以短视频为主的内容公司，短视频这个行业在过去的几年增长非常迅速，主要体现在三个方面：

第一，从用户时长上看，在过去两年内，短视频行业的人均在线时长增长了5倍，短视频的总时长占有量仅次于移动通信网络；

第二，从用户量来讲，整个短视频行业的月活达到了8.2亿，近3年增长率64%；

第三，从渗透率上来讲，互联网用户中有68%人使用短视频，增速达到了16%。

短视频是成长非常快的新兴行业，尽管在现在看来是理所当然甚至是大势所趋，而快手作为行业的引领者和推动者，实际上在风口浪尖上经历了很大的变革，以及痛苦的转型。

最早在2011年的3月的时候，我们的产品叫GIF快手，是GIF这样一种特殊的内容形态的编辑工具产品。

到了2013年7月，这正是移动互联网从3G跨越到4G时代的时间点，通讯效率已经足够支撑短视频这种信息分享的方式，所以公司做了一个非常大的变革，把快手从工具类的产品转型成为一个短视频社交平台。

转型的阵痛非常明显。此前GIF快手的DAU已经达到了1000万，作为一个工具类的产品，这已经是非常惊人的DAU了，做出这样重大的决策之后，我们的DAU瞬间掉了一半以上。

不过之后，快手的DAU很快又回到了1千万，然后是1亿，一年多之后到了2亿，期间我们收购了A站，也领先了知乎。我们的内容生产者超过2亿，每天新增作品超过1500万，在过去8年内，平台上短视频的积累量超过了130亿。

我们生产者众多，我们平台上的用户作品很多，用户行为也很丰富，点赞、评论、关注等等，这就和AI有天然的契合。

其实AI最大的源动力就是数据，在以前数据没有那么大的时候，计算力没有那么高的时候，AI想真正发挥作用是比较困难的一件事，真正AI的爆扩式的增长是源于数据增加，快手的海量数据为AI的落地提供了坚实的物质基础。因此，AI在快手的落地发挥效能成为了一件理所应当的事情。在AI的浪潮下，快手在AI的各个方面做了很多的努力。

接下来我想从几个方面来介绍一下快手在AI方面的建设。

AI基础能力

首先，是基础能力的建设。

对大家来说，AI的基础能力不一定像AI产品那么直观，那么我首先解释一下AI的基础能力。

图像、声音、语言是三个重要的信息来源，AI各种应用主要是围绕这三个方面开展，而AI的基础能力正是这三个方面所共需的能力，主要包含AI模型的训练和推理两个部分。

AI模型的训练，输入的是数据，输出的是模型；模型推理是通过模型把数据转化成决策。我们每天有海量的数据，无论训练还是推理，本质上都是一个计算的过程，而计算的效率决定了每个公司AI的迭代效率和试错成本。

快手在这方面做了巨大的努力和投入，希望能够在基础能力上做足积累和基本功。

我们今年成立了AI平台部，这也是我在领导的部门，负责整合AI资源，打造通用的AI的基础能力，并对基础能力做孵化和迭代。这是从组织架构上对AI基础能力的保障。

我们做了很多系统性的工作，比如说推荐系统有我们有自研的Kuiba和Persia等，Persia在业内先驱性地用GPU来做广告推荐系统，比CPU提高了600倍的效率。

我们在分布式的训练算法层面也做了很多基础性研究，比如去中心化分布式计算的体系架构，发表了很多顶会论文，这些技术在Facebook、Microsoft等工业界的公司已经尝试落地了。

此外，我们设计的分布式算法还可以大幅节省通讯量。

当我们多个机器在分布式计算的时候，他们之间通信的效率是影响最终并行效率的关键。现实中，通讯量太大会导致并行效率特别低，所以我们设计了一套有损信息压缩通讯，这个信息压缩虽然是有损的，但我的方法可以保证在信息经过有损压缩后得到的结果是无损的，可以节省95%的计算量。这个技术正在大量应用到实际当中，包括现在常常听到的联邦学习等。

AI模型的推理在快手有非常重要的意义和作用，AI研究特别关心的一点是模型的准确率，而在快手这样场景下，无论是变脸应用还是变声玩法，我们大量的AI能力最后都体现在手机上，除了准确率之外，还有两个因素也特别重要：一个是能耗，一个是延迟。

举个例子，我们给手机做人脸识别解锁，假设准确度达到了99.99%，但耗时长达一小时，或者每次刷脸就耗掉了一半的电量，我相信没有人愿意用这样的手机。这是一个很极端的例子，但也说明了能耗和延迟跟准确度有着同样的重要性。

在快手，我们用户手机的机型千变万化，从低端机到高端机覆盖非常丰富的产品线，这对快手提出了巨大的挑战，需要让AI模型能在不同硬件上部署。所以，前面提到的准确率、能耗、延迟三个指标，我们同时要关注用户使用的各种不同型号的手机上体现，这也决定了在快手产品形态中哪些AI技术能够真正部署进去。

这是我们做的一套端到端的解决方案，比传统的AI模型压缩方法更高效，比手动压缩更高效更准确。

端到端有两层含义：

第一层是手机的低端到高端，这个解决方案能把从低端手机到高端手机所有机型全部覆盖；

第二层是从硬件端到数据端，我们的目标是需要一个准确度高的模型——这是由数据驱动的，对模型的约束是运行在特定的机型上，能耗和延迟必须达标，这是由硬件端决定的。所以这是硬件端到数据端联合学习和联合AI能力的建模。

基于此，我们在计算机顶会上发了很多论文，内部也有大量的落地场景。此外值得一提的是我们我们设计的YCNN自研推理引擎拿到了CCF科学技术进步奖。

模型训练和推理，这两块是我们在AI基础能力方面的建设，在此基础之上，我们可以将AI模型运用到很多不同的场景。快手是一个内容公司，聚焦于内容，我们做了不同维度应用场景的划分。

内容理解

我们先来看看内容理解方面，AI有哪些应用。

在快手，提到内容理解，大家首先会想到风控，需要实时检测不雅视频、不当言论。但一个挑战在于，我们的内容形态是视频，视频里包含语音、图像、动作、评论等等，这是一个多模态信息，我们需要对多模态信息做综合性的分析和理解，这就提出了比以前单一的信息源更大的挑战。

另外一块是视频去重，这对保护原创特别重要，有的老铁自己做了非常好的音乐和视频，可能会被别人盗用，如何避免这类问题，把有侵权行为的视频扼杀在摇篮里。

除了风控之外，我们还做了基于视频理解的自动配背景音乐的功能。

常见的方式是拍了视频再从音乐库里找合适的音乐，但这种方式一方面费时，另一方面音乐可能和视频情节难以完美匹配。我们的方式是先理解视频，再自动配音乐，在视频中不同的部分配上不同情感的音乐。

内容生成

第二块是内容生成。

老铁们把视频们传上来了，他还想视频是不是可以做的再漂亮一点，几乎99.99%的用户都是业余摄影者，他摄影的能力相对水平偏低，因此需要借助我们内容生成的能力，帮助大家美化视频，美化内容。

比如变脸：

3D的萌面表情：

还有一张照片到一条视频的生成：

内容消费

接下来是内容消费。

当老铁们上传内容并做了各种编辑之后，希望用户们看到他的作品。这个时候问题出现了，很多用户受网络带宽的限制，没有办法看到特别高清的视频。我们可以用AI技术来弥补，窗外的图像只有360P，我们用AI技术增强成为720P。

另外一个非常重要的应用是短视频的直播和传输。直播其实是现在短视频行业变现非常重要的手段，几乎占到一半的比重。直播中保证用户体验的关键就是视频的码率。在快手，我们摒弃了传统的PCP的协议，也没有用Google Quic协议来做视频的编解码，快手自己定义了一套快手多媒体传输协议KTP（Kwai Transport Protocol），K代表“快”，比开源工具最优码率的质量提高了20%以上。

△ KTP表现优于Google Quic

内容推荐

内容推荐本质上是要匹配视频和用户，就像滴滴的场景是匹配司机和用户，两者本质上很类似。

快手做了非常多努力。首先数据量非常大，TB级别的模型量，万亿级别的特征值，千亿级别的推荐，我们用到了深度学习的方法。

另外强化学习在其中的应用蛮有意思，我们做视频推荐的时候，每次推荐的并不是一个视频，而是一组视频。传统的推荐只是一套ranking算法，用户来了之后对每一个视频进行打分，把高的选出来，低的丢掉。如果要推荐10个视频给用户，就把Top10推荐给用户了。

因此传统推荐的算法没有考虑到视频间的相互影响和顺序。我们观察到如何选择视频的组合以及如何把这些视频的顺序做合理的调整对用户的体验非常关键，我们用深度强化学习的方法解决了这些问题。

最后是图表达学习，这个在快手特别重要，快手目标是打造一个社区，而不仅仅简单是一个内容的分发和上传的一个App，所以用户之间的交互是非常频繁的。在这样一个上亿的大的知识图谱里面，如何把用户的表达、视频的表达做出很多有意思的事情，其实是特别重要的。

快手游戏

最后一个环节我想讲一讲快手游戏。

游戏其实也是一个AI可以大放异彩的地方。快手有100多款小游戏，有上百万的DAU，游戏的AI、游戏冷启动、游戏的辅助设计，游戏关卡的设计、游戏数据的智能运营分析都是AI可以应用的场景。

我们在里面做了很多蛮有意思的事情，我们设计了游戏AI做关卡难度的自动评定，降低了90%的测试工作量。今年夏天的DeeCamp夏令营上我们带了一个队伍做游戏AI的项目，拿到了夏令营最高奖，同时也在ICLR等顶会发表了一些论文，这是把学术和产品结合的非常完美的一个场景。

最后讲一讲我们的布局，快手现在人员规模达到1万员工，除了在国内北京、杭州、深圳有办公室，同时在美国的西雅图、硅谷等我们也有分公司。

最后我想用一句话结束我今天的报告：

快手，用有温度的科技提升每个人独特的幸福感，谢谢大家！

MEET智能未来大会量子位活动合辑

郭一璞

MEET2020 | 快手刘霁：AI基础能力决定每个公司AI的迭代和落地效率

郭一璞整理自 MEET2020智能未来大会
量子位报道 | 公众号 QbitAI

要点

刘霁演讲分享全文

AI基础能力

内容理解

内容生成

内容消费

△ KTP表现优于Google Quic

内容推荐

快手游戏

相关阅读

英伟达NLP公开课第1期：使用NeMo快速入门NLP、实现机器翻译任务，英伟达专家实战讲解，内附代码

商汤绝影王晓刚：未来一两年是智能汽车突破关键期，大模型是基础 | MEET2024

大模型应用，最重要的是逻辑推理能力｜面壁智能李大海@MEET2024

直播招募：AIGC竞速正当时，是谁快人一步？｜量子位·视点

倒计时7天！2024人工智能年度评选，AI时代的行业先锋就等你来

量子位「MEET 2023智能未来大会」启动，邀你共论智能产业穿越周期之道

热门文章

AI应用突围，中小企业的新周期已至

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器

阿里云造“Agent工厂”，百炼MCP服务上线，无需代码5分钟建Agent

全球首个Linux开发本：50TOPS算力，DeepSeek都配好了，可随地大小开发

MEET2020 | 快手刘霁：AI基础能力决定每个公司AI的迭代和落地效率

郭一璞 整理自 MEET2020智能未来大会 量子位 报道 | 公众号 QbitAI

要点

刘霁演讲分享全文

AI基础能力

内容理解

内容生成

内容消费

△ KTP表现优于Google Quic

内容推荐

快手游戏

相关阅读

英伟达NLP公开课第1期：使用NeMo快速入门NLP、实现机器翻译任务，英伟达专家实战讲解，内附代码

商汤绝影王晓刚：未来一两年是智能汽车突破关键期，大模型是基础 | MEET2024

大模型应用，最重要的是逻辑推理能力｜面壁智能李大海@MEET2024

直播招募：AIGC竞速正当时，是谁快人一步？｜量子位·视点

倒计时7天！2024人工智能年度评选，AI时代的行业先锋就等你来

量子位「MEET 2023智能未来大会」启动，邀你共论智能产业穿越周期之道

热门文章

AI应用突围，中小企业的新周期已至

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器

阿里云造“Agent工厂”，百炼MCP服务上线，无需代码5分钟建Agent

全球首个Linux开发本：50TOPS算力，DeepSeek都配好了，可随地大小开发

郭一璞整理自 MEET2020智能未来大会
量子位报道 | 公众号 QbitAI