无界 AI 创始人长铗:无界在 AI 生态中的“光合作用”定位丨中国 AIGC 产业应用峰会
1 月 5 日,“智求共赢・中国 AIGC 产业应用峰会暨无界 AI 生态合作伙伴大会”在杭州正式开幕。
1 月 5 日,由杭州未来科技城管委会、余杭区科技局和余杭区企业(人才)综合服务中心联合指导,时戳科技主办,AI 新智界提供媒体特别支持的“智求共赢・中国 AIGC 产业应用峰会暨无界 AI 生态合作伙伴大会”在杭州正式开幕。
本次大会深度聚焦 AIGC 应用,邀请到了全国各地近百家合作伙伴参会,以及来自产研、投资机构、高校、AIGC 创业者等众多行业精英和专家,共同分享过去一年 AIGC 应用进展,探讨未来发展趋势。
无界AI创始人长铗出席大会并做主题演讲:《光合作用:无界在 AI 生态中的定位》。他讲到,AIGC的过程特别像是光合作用,“光”是文本、语音、图像等外界的信息输入,“二氧化碳和水”是训练的数据集,“碳水化合物”是生成的图片。无界AI的定位是光合作用中的“叶绿体”,为生态伙伴赋能。
长铗表示,在过去一年,无界 AI 训练了大概1000万张图片素材,并且与国内50多所高校、博物馆建立了数据上的合作。近期,无界AI将陆续上线各大行业模型和国风、艺术插画、私人影像等模型,将自己的模型能力更好地输出给生态伙伴。未来一年,无界AI 还将在技术上进一步升级,加强对自然语言的支持,支持文字生成和书法生成等功能。
以下是AI新智界整理的演讲内容,为方便阅读进行了部分删减:
无界AI的定位
AIGC的过程特别像是光合作用,“光”是文本、语音、图像等外界的信息输入,“二氧化碳和水”是训练的数据集,“碳水化合物”是生成的图片。无界AI的定位相当于生态中的叶绿体,从宏观层面来说就是这个生态中的植物。生态中的动物是那些把我们模型能力应用得好,做出现象级、杀手级,或者国民级应用的生态合作伙伴。
定位有toB和toC之分。 toB是一个效率工具,能够节省时间;toC是一个情感陪伴,消磨时间。无界AI更偏向于toB,我非常相信将来生态伙伴能做出现象级的应用。当前,无界更希望将模型能力赋能生态合作伙伴,专注帮企业降本增效。
模型训练的两大流派
模型训练分为两个流派:参数派和像素派。
参数派,就是各种追求CLIP(生成图片与提示词的一致性)、FID(生成图片与训练素材的一致性)等这些可以用算法来评价的参数,通过优化参数实现霸榜。他们非常关注参数的规模,而忽视人类的审美,因为审美很难用算法来评价。无界属于像素派,也就是说我们更注重在像素层面的优化。我们非常关注人类审美的反馈,也就是社区用户的反馈。
说到像素派,我们就要提到 Midjourney,它的审美是一直在线的,它也属于像素派。我们和Midjourney有什么不一样呢?
模型规划不同
最大的区别就是我们在产品的模型规划上有很大不同。Midjourney本质上只有两个模型,一个是对应通用的方向的Midjourney模型;另外是对应二次元的方向的Niji模型。我们不太一样,我们把模型细分为汽车设计、产品设计、服装设计、建筑设计等不同的垂直领域,同时要做到美学上比Midjourney表现更好。
上图是无界AI与其他模型在生成效果上的评分示意图,如果SDXL是平均分70分的模型,Midjourney的得分是80分。我们对美学的要求更高,在细分赛道的模型要做到80分以上,才能达到模型上线的标准。
美学风格不同
无界 AI 与Midjourney 在理念上也不太一样。Midjourney有非常强烈的美学特征,下图中左边的图片很容易看出是Midjourney画的,它有很强烈的MJ艺术风格,个性化,具有辨识度。我们更强调的是模型艺术上的多样性,因为很难用单一的标准来评价美,所以我们尽可能还原美。
产品体验不同
如果把Midjourney比作米其林大厨,无界AI就是魔法师。米其林大厨把菜做到了90%,用户只需要简单的热一下,就可以直接享用。我们更希望用户自己成为魔法师,在不同的瓶瓶罐罐里添入不同的材料、不同的配方,调配出专属于自己的艺术风格。
易用性和灵活性不同
Midjourney的产品易用性更高,只需要简单的提示词就可以生成非常漂亮的图片。无界AI产品的灵活度更高,支持图片的后期处理。
我们在研发工艺美术模型时,和十几个高校和博物馆进行了学术上的交流。例如,在训练过程中,我们生成了一幅画珐琅鼻烟壶的图像,并向山东工艺美术学院韩明老师请教。他给出的指导意见是,胎底材料应为琉璃而非陶瓷,所以应该带有一点半透明的质感。我们迅速用工艺美术模型搭配玻璃质感的LoRA,将权重设为0.8,很快就调出了韩明老师描述的质感,这就是无界产品的灵活性体现。
灵活性和易用性是可以兼备的。虽然我们的用户一开始入手难度可能会比较高,但我们可以通过产品上的设计,比如工作流的机制,把所有参数设置都封装好。我这里要提前透露一下,我们将来可能会支持Midjourney controller的一些应用,也就是说用户可以直接在无界上使用MJ的模型,同时可以获得非常丰富的后期处理功能。
审美偏好不同
我们画一张穿着汉服的女孩图像,MJ V6的效果确实非常惊艳,但画出来是一个穿和服的女子,说明它可能不是特别懂中国的审美。右边是我用无界AI 的汉服模型画的汉服女孩,得到了理想的效果。我们是一个国内的团队,立足本土,所以在更懂中国的审美。
人类反馈不同
在人类反馈方面,Midjourney 就做了一个简单的处理,每生成4张图片,用户挑选最好的一张,这样也是帮它做了反馈。无界 AI 基于APP可以收集到非常多元的用户反馈数据,有点赞、收藏、同款、用户的调研等等。
版权逻辑的不同
产品理念的不一样,也会导致版权的逻辑不一样。根据 Midjourney的版权规定,免费的用户不可以商业使用,但付费用户可以获得商业使用授权。我们要注意到,这是一个商业使用的授权,不是版权著作权,也不是所有权。
无界AI很早之前就宣布,凡是用无界AI创作的图片,版权归创作者所有,这个理念是比较超前的。我们每一张作品都是上链存证的,而且和杭州互联网法院是打通的。当时存在较大争议,人们认为用提示词创作并不是原创。但现在已经有越来越多的案例显示,用户在创作图片的过程中有非常多智力的参与,应该尊重创作者的智力成果。比如前段时间互联网AI图片侵权第一案,北京互联网法院就支持了这样的观念。
无界AI模型训练成果
在过去一年,无界 AI 训练了大概1000万张图片素材。同时,我们还和国内50多所高校、博物馆都建立了数据上的合作。
我们来看一下无界 AI 训练的模型:
1.汉服模型。这也是我们第一个出圈的模型,右边这4张图是我们的用户结合水墨风格创作的一组汉服图片,参加了浙江省委宣传部举办的“梦溪杯”。
2.汽车设计模型。一言以蔽之,无论是100多年来汽车工业出现的所有汽车品牌和产品,还是现在的国产新势力最新的车型,我们的汽车设计模型都能画。即便是设计未来的概念车型,也不在话下。
3.工艺美术模型。这个模型我们是把市面上能收集到所有拥有数字博物馆资源都训练了一遍,相当于一个变化的国家版本馆。国家版本馆大家都知道,它有非常丰富的数字资源,但它的数字资源是一种静态的展示。当工艺美术模型训练过以后,它就变成了流动的资源或者变化的资源,用户可以非常方便地使用提示词实现不同博物馆馆藏之间的联名,把它们的风格结合起来。
4. 壁纸模型。这个模型的使用率很高,看到这些图片我就不禁感慨,以后谁还会用那些图库的网站呢?用户生成的每一张图片都比它精美,而且著作权还属于自己。所以这就隐含着一个逻辑,每个模型背后就对应着一个一个行业的颠覆。
5. 私人影像模型。这个模型就是非常精准对标影楼这个场景或者行业,凡是拍写真、证件照、婚纱照,以后都可以在家里直接进行。影楼这个行业我认为也会被颠覆。
同样我们最近也上线了“个性相机”,支持用户使用一张照片训练私人模型,实现快速换脸。最近我们和日播大剧《神隐》合作,粉丝上传一张自己的照片,就能穿上剧中女主的穿着。
(点击链接解锁神隐同款写真 https://mp.weixin.qq.com/s/BLtFC25WNImQouWKC30-hA)
6. 产品美学模型。这个模型使用率同样很高。下面这几张图形都是我创作的。左上角大家可以猜猜使用了什么样的提示词,其实非常简单,我大概是使用了“阴阳、太极,减振、气垫、发光材料,耐克鞋”这些提示词,就可以出这样的效果。这将是电商和产品设计行业的一个利器。
7. 建筑模型。不管是现代还是古典的建筑艺术风格都可以出,也包括世界各地和国内各种城市的地标。
8.室内设计模型。也从草图设计到建模方案呈现,短期内就能提供室内设计方案。
无界AI模型训练的未来趋势
对于模型训练的未来趋势,我认为有以下四点,也是无界接下来要完善的:
1.对自然语言的支持会越来越好。因为大语言模型现在和文生图模型之间还存在一些距离,文生图模型大部分都是基于标签式的提示词体系。未来,我们将升级文本编码器,加强对自然语言的支持,无缝对接大语言模型。
2.支持文字生成和书法生成。一些英文字母和一些数字已经可以画了。但支持中国书法或者汉字的模型,目前比较少,这个将来也会实现。
3.视频生成模型也会逐渐的成熟。
4.生成模型会越来越像搜索。这是一个什么概念呢?意味着将来随机浏览一个互联网的网页,你看到一张非常的精美图片,只要复制图片下面一段描述性的文字放在无界模型中,就能画出和同样的艺术风格和主题的图片。
无界AI生态伙伴合作方式
无界目前和生态伙伴合作的一些模式:
1.API接入,支持合作伙伴直接调用无界AI已经训练好的模型。
2.模型训练,支持合作伙伴对现有模型继续优化,微调出专属于自己私有的模型。
3.产品与模型深度定制,无界AI全流程深度参与客户产品与模型的定制,24 小时全天候技术支持。
最后,谈一点对AIGC的感想。对于AIGC,我认为可以用这样一句话来概括,就是“以宏观叙事,从微观行事”。
宏观叙事,AIGC这样一个大浪潮不是以个人意志为转移的,它是一种“灰犀牛”,是一种时代的潮流。我们抵触和拒绝其实意义不大,最好的方式就是加入其中。在具体实践当中,一定要从微观行事去了解客户具体的需求,去解决具体的问题。
- 豆包大模型披露2024技术进展,亮相7个月综合能力全面对齐GPT-4o2024-12-30
- 首家量产50万!中高阶智驾轻舟“越级”,获征程6M首家定点2024-12-28
- KDD’25 | 生成式拍卖:感知排列外部性的整页优化机制2024-12-28
- 联想与火山引擎官宣合作,为AI桌面助手接入豆包大模型2024-12-27