字节技术大牛跑步进入AIGC创业,聚焦视觉领域,搭建算法平台
成立爱诗科技,杀入AIGC创业中间层
衡宇 发自 凹非寺
量子位 | 公众号 QbitAI
3月最后一天,王长虎在龙湖集团的last day。
这位字节跳动前视觉技术负责人、AI Lab总监辞职挂印,火速启程下一站:AIGC创业,成立新公司爱诗科技。
他拉团队自起炉灶,要打造一个聚焦AIGC的视觉多模态算法平台 ,覆盖视觉相关的各种垂直应用场景。
当此大热的AIGC风口,王长虎已经是近期第N位勇闯创业潮的AI牛人。
聊起这事,王长虎说话间不自觉就提高了声音,语速也更快。他提到,创业是受时代和内心的双重感召,而且在风口和经历背书的双重加持下,目前看来,早期的融资推进颇为顺畅。
关于创业要干的事,他信心饱满:
技术难点?一定有,但也是好事,它就是我们不断形成竞争壁垒的机会,就是这时候需要我们去做的。
而且我们真的是打过硬仗的,之前在字节,那么难的事情都被我们扛过去了。所以在新的应用场景里边看到难点,蛮兴奋,看到了,就去解决它。
(“那么难的事情”,指对字节系短视频产品从0-1进行建设)
支持AIGC全生命周期的视觉多模态算法平台
在ChatGPT引爆的AIGC创业风潮后,王长虎的切入点不是底层大模型或To C应用层。
而是基于过去近20年的学术研究和技术应用能力,杀入中间层,打造视觉多模态算法平台,将焦点聚集在AIGC相关视觉领域的各个垂直应用场景。
并且在初始阶段,To B先落地践行。
所包含的多模态具体样式,根据视觉垂类领域应用的需求,初步设定为文字、图片、语音、视频,以及用户的个性化特征等,也是AIGC领域不断涌现新能力和产品的载体。
根据王长虎的解释,利用AI,可以完成从UGC到AIGC的内容新升级。
“很多人关注AIGC,更多关注在内容生成方面。”从王长虎视角看过去,内容生成只是AIGC全生命周期的一个阶段,“其余阶段也有很多问题等待去解决。”
“很多问题”是哪些问题?
他结合此前经历,举例了两个UGC时代代表性场景来佐证他所说的内容生成之外,AIGC时代生产链的其他环节很大可能会遇到相同难题。
一个是在日活6亿,正负样本极不均衡的抖音或TikTok平台上,根据不同文化背景、具体要求等,必须要筛选出不合规的视频进行拦截,且需精准快速。
AIGC时代,这样确保安全的审核同样重要,且审核需求量更大。视觉多模态算法平台提供的算法,就包含了能够帮助使用方提高筛选和拦截效率的那种,并且很有可能如当初的字节一般,在王长虎提供的技术支持下代替成本高昂的人工审核,同时提升效率。
另一个场景是抄袭频发。AIGC时代,创作门槛降低,作品数量爆发,抄袭现象和版权纠纷大概率显著上升。
UGC时代已经验证过,长此以往,不仅打击原创者的创作意愿,对平台生态不利;而内容雷同或完全相同的视频持续推荐,用户体验也会大打折扣。
针对这个场景,王长虎要做的平台,就能为用户侧提供减少类似或雷同视频分发的AI算法。
他还表示,这个聚焦AIGC的算法平台搭建过程中,很大可能会利用AIGC技术提升效率。
上述所有都是王长虎的现阶段思考,他才正式离职,刚刚开始筹备新公司事宜,新公司名为爱诗科技。
粮草先行,目前组建了10余人的初始团队,也在招募核心技术和产品人才,为真正踩下出发的油门蓄力。
梳理他言语间透露出的规划,能嗅到关于创业项目的信息点:
搭建这样一个视觉多模态算法平台,能够支持AIGC新内容,帮用户解决内容生成、安全、版权、分发、商业化等几乎全生命周期的各项问题。
新的AI浪潮到来,王长虎身处其间,感知到变化,并打算在新事业从善如流地用上旧经验,包括但不限于GPU集群能力、服务调度能力、自动化模型训练能力,推断能力等。
经验不会凭空出现,既有功力的来源,主要可以定位回他在字节跳动任职期间。
2017年,王长虎加入字节跳动。那时候人们对字节的感知,通过今日头条远大于通过抖音。王长虎加入之初,就是在字节内部创业般,从0到1深度参与建设短视频类产品。
此次To B和To C层面可能遭遇的各种问题,如降本增效、版权厘清、用户体验等,王长虎都在那时以技术或实现或改善或解决。
再一次“从0到1建设技术平台和产品”,王长虎表示,上述经验都可以一以贯之应用在此次AIGC创业。
与AIGC缘起20年前的本科研究
新公司还在襁褓,王长虎不愿过多详谈,他更愿意谈论的是此前的技术经验,当然也包括“技术底色上滋养出的AI情结”。
这要从王长虎还是中国科学技术大学6系(电子工程与信息科学系)大四学生时聊起。
那是2004年,他做了人生首个研究,即根据一张或多张人脸图片,生成该人脸的3D模型。此研究后来发表到国际会议上。
他不无兴奋地说:
回看20年前,我此生做的第一个研究,就和AIGC有关。
同年,王长虎进入MSRA实习,中科大博士毕业后转为正式员工,直到2017年离开。
13年间的工作内容也与AIGC有千丝万缕的联系,他所在团队研究的“神笔马良”草图搜索技术,可以基于海量图像数据建立搜索引擎。
当然,那时候生成式技术没有成熟,业界对大规模数据的训练和处理经验也远不如今日丰富,所以整个过程是在海量数据库中寻找和草图最匹配的那一张。
回忆此处,王长虎的语气中多少带了些感慨,因为现在的范式也是基于海量数据去训练一个模型,然后根据用户输入的文字或图像信息,生成一张最匹配prompt的图片。
△草图搜索技术示例
都说十年磨一剑,但在微软实习和工作13年后,王长虎毅然奔赴字节跳动,选择的还是当时并非招牌的视频类产品。
为什么去字节?毕竟王长虎自己也承认,在微软可以做世界上最顶尖前沿的科学研究。
但在微软,科研项目应用到公司产品需要的周期特别长。
他举例分享,自己二零零几年做的工作,若干年后才真正应用在必应搜索引擎,新技术很难在第一时间影响用户。
但这一点在字节可以实现,再加上加入字节时,恰巧是短视频类产品筚路蓝缕打根基的时候——这也是字节AI Lab与其他大厂AI Lab的区别所在,即并非在产品成熟后才建立AI部门,也因此,王长虎有机会在产品0到1发展历程中扮演核心角色。
公开资料显示,字节跳动人工智能实验室(AI Lab)的成立使命,就是推动机器智能的极限,致力于将AI理论研究快速应用于产品部署。
现在翻看王长虎公开简历,字节任职期间,留下的足迹如下:
- 完整参与了抖音和TikTok等短视频类产品从0到1的建设和发展;
- 建设了视觉技术和业务中台,带领团队将相关技术广泛应用到字节跳动全线产品中;
- 为集团各产品提供AI技术支撑和业务解决方案,覆盖了视觉相关产品内容生产与消费的全流程。
期间,他搭建的数百人团队,不仅有技术人员,还包含了产品同学。如果把微软看成王长虎的技术练兵地,王长虎就把字节和龙湖的经历,看成是对他技术和产品两方面认知的锻炼。
△王长虎
和从字节去龙湖的原因一样,选择加入AI 2.0创业大潮,他的理由是“跳出舒适区”。
当然,这一次的催动因素更复杂,譬如ChatGPT和Stable Diffusion的惊艳表现,以及自己从DL热潮走来,对又一次“翻天覆地变化”的不容错过。
他说,这个机会更大,不像元宇宙、区块链是被一部分人看到,AIGC是多数普通人能看到和感受到的。言语间,王长虎又传递出自己对“新技术快速影响用户”的看重。
如今离职创业,他又有机会身体力行地这样做了。
参考链接:
[1]《草图搜索的魅力与挑战》https://blog.sina.com.cn/s/blog_4caedc7a0102en29.html
- 把1个脑洞发展成1场顶会workshop,阿里妈妈只用了1年|直击NeurIPS’242024-12-16
- 直击CCAI大会:院士专家舌战激辩,20个AI案例C位出道,海淀无愧AI科技“梦工厂”2024-12-15
- ChatGPT搜索与Her打通了!搜索免费开放,居然还剧透明日直播主题2024-12-17
- 《2024年度AI十大趋势报告》发布:技术创新、产品洗牌、行业动态一文看尽2024-12-13