面向5G,虎牙AI的技术准备
郭一璞 发自 凹非寺
量子位 报道 | 公众号 QbitAI
“当5G到来时,普通用户的流量不再是限制看直播的因素,就像短视频今日的火热一样,整个直播市场会有5~10倍的巨大增长空间。”
这是虎牙CEO董荣杰最新给出的机遇判断,他十分看好5G对整个直播业的助力作用。有了5G,流量不设限,用户心里没负担,而在通信基础设施之上,借助AI技术衍生出的诸多新应用,也将会是直播的新生机。
比如,虎牙自己上周就一口气推出了小程序开放平台和虚实结合开放平台HERO两大平台,前者让第三方开发者们都能利用虎牙技术接口开发直播中使用的各类小程序应用,后者则使得各家都能让自己的IP“活过来”,在虚实结合中成为直播的主角。
如果说,前几年的直播还是聚焦在优质公会、主播的“单兵作战”,那么在近几年,随着技术要求的不断提高和更多潜在的衍生技术应用,直播平台的竞争已经进入了围绕主播、公会、赛事、活动的“集群作战”时代。
新技术、新能力、新应用作为现代武器,给单一主播公会的能力乘上了巨大的倍数,而对于平台而言,技术加持的直播“集团军”,更需要如同制造业产业链一般成体系、成规模的运作方式。
虎牙也展露了他们在这个新时代的技术野心。两大平台发布后,量子位也和虎牙CTO赖立高、AI总经理许佳聊了聊虎牙在这两大新发布背后的技术与实践。
IP数字化,重现真实世界
借助生成对抗网络(GAN)、语音合成等AI技术的虚拟主播,虎牙并非业内头一家,然而应用在直播上,却是开天辟地之举。
究其缘由,还是业务驱动,“很多真人主播确实在才艺上可能擅长一点,但我们在业务上有很多对于真人不会的才艺进行赋能的需求”许佳谈到,而虎牙的第一个数字人“数字晚玉”的原型虎牙主播晚玉,本身确实是没有跳舞技能的游戏主播,而数字人的存在补充了晚玉的技能树。
而实现“让数字人跳舞”这个功能,则是基于两种方式,一种是捕捉真人舞蹈演员的动作,另一种是把已有的舞蹈视频中的动作提炼出来。
未来,除了在外观细节上重现真人的外表,虎牙技术团队也在准备加入语音识别等NLP功能。
基于此,虎牙打造了虚实结合开放平台HERO,“从技术上看,我们做的是非常通用的流程,现在有很多IP,你可以把你的形象拿过来,我们通过驱动技术把这些形象驱动起来,渲染给观众。我们的方案是平台,能够把所有的已经有的数字人IP拿到我们的平台,通过我们的驱动渲染,最后呈现给观众。”许佳介绍。
也就是说,用通用的方法给各种IP创建虚拟形象,实现技术上可复制,降低成本和使用门槛。
而这一切,归根结底是在重现真实世界,不仅包括人物,也包括真实世界中的场景。
正如许佳所言,虎牙主要的AI技术方向是“把直播间的物理世界结构化”,不仅包含人脸和人体,也有针对场景的理解。
直播内容生态与技术的渊源
重现物理世界的技术基础,则是要应用在行业侧,基于主播、观众、流量的虎牙生态支撑,AI技术能够创造更多应用。“虎牙的优势是有主播、有用户,有流量,一旦效果可以触动用户,将会产生很强的驱动力。”赖立高说,“直播把两个空间的信息做了互通,但是距离感还是很大的,网络逐步降低时延感,数字化进一步提升空间融合,并能打开更多交互方式,消除人际隔阂。”
而在这片由主播、公会、观众等有机元素构成的生态中,内容生产金字塔的不同位置,其技术利用能力有着天差地别。
“虎牙是一个直播平台,我们有大主播、超大主播和小主播,平台在能力上会想办法降低成本,让更多的主播用上最新的技术,”赖立高说,“现在头部主播自己有很多的投入,有很多的能力和工具,但这些能力难普及到中小主播,因此我们有第三方开发者给他们提供帮助。”这也是虎牙小程序开放平台的意义与价值之一。
而帮助中小主播和公会,也意味着对成本和门槛的要求。
由于数字虚拟人正处在验证市场过程中,因此虎牙技术团队一直在降低AI数字人的门槛,做到不用太高端的摄像头等硬件也,可以将任意一名主播乃至观众的数字人形象重现出来,这样,在未来的直播中,主播和观众可能都是数字虚拟化的了,能像观看现场演出一样出现在同一个场景中。
“今天展示的AI技术,把虚拟的数字人形象和现实中结合,我们现在看到的是从观众的维度,但从主播的内容生产角度看,未来可能整个直播间内无论是主播还是直播背景都是数字化的,观众信息可以虚拟化进到里面,和主播在同一空间进行游戏式的互动。像玩云游戏一样体验直播,这也许是AI+5G+AR在直播的最佳诠释。”赖立高说。
虎牙对直播寄予的不仅仅是娱乐能力。赖立高强调,虎牙对直播的定义不是纯娱乐,直播的价值在于和行业的连接,具体是娱乐还是其他功能服务,虎牙不会设定限制。
此外,在虎牙的直播互动中,技术在平台的运营上也时刻都在发挥着作用。比如谈及推荐机制,赖立高感触颇深:“信息流和短视频的推荐逻辑相对清晰,原因在于内容的生产和消费是分开的,用户消费的时候,内容已经是确定的,重点是选择看什么。对直播推荐来说,复杂度更大,我们花了两年时间去试错,才寻找到比较合适的评估模型。”
锁定优秀AI人才
支撑庞大直播生态的技术体系,对人才的需求自然不低。
不过,在技术人才的招聘方面,除了技术上的优秀之外,虎牙也十分看重候选人对直播业务的热情,以便形成技术闭环。
“我们认为很多技术一定要形成闭环,在过去我们看到AI,可能是做一个特定的东西,但是闭环会出问题。我们花了很长时间去探索AI在直播里起什么作用,怎么落地,我们的业务开发部门会用AI去做内容检测、识别、推荐、风控等,基本上常规业务系统都尽量去做智能决策,AI普及是比较广的。核心是AI真正起到驱动作用,这个地方如何形成闭环,是一个系统工程,我们花了很长时间去思考,以算力与网络为突破口,去重构直播的底层技术架构。这对人才的专业能力与自驱力要求是非常高的。”赖立高这样说。
而落到实处,曾经是腾讯T4的许佳有着宏大的想法,除了目前的视频理解和视频生成类算法人才,也正在朝着语音方面进军,“视觉和语音方面,我们对于优秀的、有潜力的年轻人一直在积极的招募着,”这位虎牙AI的负责人坦言。