昆仑万维CEO方汉:AIGC以低成本达到80分水平,腰部工作者将大概率被淘汰 | 中国AIGC产业峰会
要么力争上游,要么老老实实当AIGC操作员
丰色 发自 凹非寺
量子位 | 公众号 QbitAI
“如果人类的水平达不到80分,就会被AI淘汰。”
在中国AIGC产业峰会现场,昆仑万维CEO方汉抛出这样一个大胆预测。
在他看来,目前AIGC对存量知识的理解与表达已经达到80分的水平,行业从业者将随之形成两极分化的局面:
一部分人成为上游管理员,一部分成为底层AIGC操作员,两者的工作产量都会极大提升。
剩下的达不到80分的腰部从业者,大概率被淘汰。
方汉毕业于中国科学技术大学近代物理系,拥有29年互联网从业经验,从1994年开始参与和倡导开源运动,是国内最早的网络安全专家,负责研发了国内市场占有率最高的网页游戏《三国风云》。
2008年3月,他协助周亚辉先生创立昆仑万维,后者于2015年A股上市。
在本次大会上,他对昆仑万维介入到类ChatGPT大模型开发的契机、AIGC对内容从业者的影响、三种AIGC商业路径、以及开源和预训练大模型在其中的重要性进行了一一分享。
为了完整体现他的思考,在不改变原意的基础上,量子位对其演讲内容进行了编辑整理。
演讲要点:
- AIGC原本含义比较狭窄,主要指文本、图像以及视频还有音乐等人类可以消费的娱乐内容的生成。ChatGPT的出现把AIGC的范畴给泛化了。
- 对存量知识的理解与表达,AIGC将以低廉的成本做到80分的水准。
- 由于两极分化,AIGC领域的腰部工作者要么力争上游做头部管理员,要不就老老实实成为AIGC操作员。
- 在AIGC领域,文生图在同一个赛道出现了三种完全不同的商业模式,互为补充:
(1)Stability.AI打造的开源生态;
(2)Midjourney打造的SaaS或者Model Service生态;
(3)Adobe Firefly打造的传统生态工具,将所有AIGC功能集成到工具里。
- 只有开源模式可以满足用户的长尾需求;只有开源模式才可以满足中小企业的增长需求。
- 需要注意的是,我们不能只盯着目前AIGC进展,认为预训练大模型已经突破传统AIGC范畴进入AGI领域。实际上,各种AIGC工具能力仍然受到预训练大模型限制,尤其GPT-4大模型出现后这个现象更加突出。
以下为方汉演讲全文:
ChatGPT的出现把AIGC的范畴给泛化了
AIGC这个名字刚提出来的时候,在美国叫生成式AI。
国内UGC、PGC的概念深入人心,所以造了一个词叫“AIGC”。
AIGC原本含义比较狭窄,主要指文本、图像以及视频还有音乐等人类可以消费的娱乐内容的生成。
ChatGPT的出现把AIGC的范畴给泛化了,ChatGPT属于AGI(通用人工智能)范畴。
今天我的分享更多偏向原有含义,即人类娱乐内容的生成。
首先,我简单介绍一下昆仑万维介入到类ChatGPT大模型开发的契机。
昆仑万维2015年A股上市,当时是以网游题材上市的,上市后在海外进行多元化发展,有浏览器、社交产品、游戏业务。
昆仑万维是内容厂商,对于所有内容生成方面的科技进步都非常敏感。
早在2020年6月份GPT-3刚刚出现的时候,管理层和技术领导者都去进行尝试。
当时我们判断这是内容生成领域一个里程碑,没想到两年后变成通用人工智能突破口。
也是从那时我们就已经决定要跟进这件事情,因为我们在内容生成领域绝对不允许落后。
具体而言,昆仑万维开始布局AIGC和大模型领域,与奇点智源合作开始进行大模型训练工作。
目前为止除了通用大模型训练之外,昆仑万维在音乐生成领域也处于国内和国际前沿地位。
我们的愿景是推进开源AIGC算法和模型社区的发展壮大。
昆仑万维作为中国领先互联网出海企业、技术驱动全球互联网公司,致力于前沿技术追踪和研发,有相当的技术积累和人才储备。
我们的技术团队持续进行算法技术创新,积极推进模型算法开源以及社区发展壮大,基于全球每月平均4亿活跃用户以及丰富行业经验,助力AIGC应用和生态的快速落地以及成长。
以下分享AIGC在具体商业模式落地方面的思考。
AIGC从业者出现两极分化
我们观察到一个有趣的现象,对于UGC(用户生成内容)的平台如小红书、知乎、抖音、快手等,用户创造内容的门槛每降低一倍,用户创造内容的数量就会增加十倍。
举个例子,在手机摄像头出现之前,人类拍摄视频一定是靠专业的摄像机和数码相机。
手机出现之后,摄像的门槛变低,视频内容数量出现了大爆发。
这促成了快手和抖音的发展,进而中国UGC领域产生了巨大突破。
C端工具的商业逻辑其实是社区,B端工具的商业逻辑是功能完备性。
C端工具用快手、抖音拍视频,目的绝不是为了做工具,而是让用户做出来内容通过社区分发,这是C端工具逻辑。
B端工具的商业逻辑就像Adobe的PhotoShop全家桶、微软Office全家桶,以功能完备性来获得用户的青睐。
可见,随着AIGC技术的进展,它们将对内容生产者产生巨大影响。
不得不承认,现在AIGC对存量知识的理解与表达还远远没有到100分水准,但以低廉的成本做到80分没有任何问题。
如果人类自己的水平也只是80分,我们的工作一定会被AIGC替代,而80分以上的人将去管理AIGC操作员,完成曾经需要腰部作者完成的工作。
因此未来,头部工作者产量极大提升,作为AIGC操作员的底部工作者的生产能力也会得到极大提升。
很不幸,腰部工作者大概率会被淘汰。
那么,我们要么力争上游做头部工作者,要么就老老实实当AIGC操作员。
只有开源模式可以满足用户的长尾需求
在AIGC领域,文生图在同一个赛道出现了三种完全不同的商业模式。
第一种:Stability.AI打造的开源生态;
第二种:Midjourney打造的SaaS或者Model Service生态;
第三种:Adobe Firefly打造的传统生态工具,将所有AIGC功能集成到工具里。
这三种商业路径,不止是在文生图,在文生图像、文生音乐还是小说创作领域都会长期存在,且三种模式互为补充。
最终的C端用户会倾向于使用Midjourney完成工作,如现在的电商从业者,大量使用Midjourney来进行电商广告素材创作。
Adobe Firefly则契合一些传统的大B企业的需求,B端用户会使用Adobe Firefly来作为自己的创作工具。
Stability.AI是一种开源模式,特别适合在这个领域进行创业的广大中小企业。
通过开源模式来进行自己的改装与改进,来满足长尾需求,这是另外两个模式无法提供的功能。
开源大模型是商业闭源大模型的有力补充和替代。
大家可以把ChatGPT想成早期Windows,Windows的存在是整个电脑商业软件的一个基石,也是绝大多数人的生产工具。
Linux通过30年的努力变成Windows的替代,开源大模型也一定会出现。
因为只有开源模式可以满足用户的长尾需求。
还是以Linux为例,全世界所有的云厂商、大型互联网企业都以Linux为自己的服务底座。
要满足自己的长尾需求,只有一个选择,就是用Linux进行改装。
所以,我们也说,只有开源模式才可以满足中小企业的增长需求。
做一个具体的分析,Stable Diffusion的出现比OpenAI DALL·E 2晚了整整6个月,在性能、质量上都低于DALL·E 2和Midjourney,但依然有众多用户。
因为它是开源的,进步速度是难以想象的快。
Stable Diffusion催生ControlNet、T2I-Adapter、Composer,以及LoRA训练技巧。
在它上面进行二次开发的人数众多,新特性也在不断地涌现。
ControlNet是目前为止在文生图领域唯一解决一致性问题的途径,极大地降低了用户的创作成本,提高了创作的可玩性。
ControlNet开源仅2周,它的Star数就超过了1万。
与此同时,开源社区也极大地降低了用户的使用门槛。
例如HuggingFace提供了大量的模型托管以及通用的模型训练来框架diffusers,stablediffusion-webui开发了完善的一套Demo平台,Civitai贡献了海量风格化LoRA权重,整个社区也蓬勃发展起来了。
预训练大模型能力决定AIGC能力上限
需要注意的是,我们不能只盯着目前AIGC进展,认为预训练大模型已经突破传统AIGC范畴进入AGI领域。
实际上,各种AIGC工具能力仍然受到预训练大模型限制,尤其GPT-4大模型出现后这个现象更加突出。
AIGC领域的企业对于大模型本身的需求仍然非常大,也是持续的。
目前,还存在这样几个大问题。
首先,AIGC发展起来之后是否会导致优质内容的稀缺?
因为AI生成的内容会大量污染原创的内容。
其次,如何解决大模型底座导致的偏见?
比如OpenAI、ChatGPT生成的内容就存在偏见,这个问题值得关注。
最后,版权、信息伪造问题。
Adobe Firefly提出了一个新的模式,它训练的所有内容与作者达成协议,通过对model收费给内容作者分成。
从监管到行业自律,我们可做的事情非常多,而且迫在眉睫。
关于未来AIGC的展望(仅指娱乐内容AIGC)——
第一,AIGC对整个社会最大的意义是低成本终极解决方案,这一点毋庸置疑,所有人类都有消费内容产生多巴胺的权力;
第二,AIGC将涌现新的范式,彻底改变艺术创作生产方式;
最后,AIGC导致内容生成的极大发展,会使得VR和元宇宙变得更加可行。
谢谢大家。
- 北大开源最强aiXcoder-7B代码大模型!聚焦真实开发场景,专为企业私有部署设计2024-04-09
- 刚刚,图灵奖揭晓!史上首位数学和计算机最高奖“双料王”出现了2024-04-10
- 8.3K Stars!《多模态大语言模型综述》重大升级2024-04-10
- 谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用2024-04-10