Midjourney地位不稳？AI绘图又一黑马出现，附4款产品一手实测

白交 2024-08-25 13:52:18 来源：量子位

AI圈，再次开卷图像生成。

一水发自凹非寺

量子位 | 公众号 QbitAI

AI圈，再次开卷图像生成。

一连串进展扎堆：

8月21日，Ideogram正式推出2.0版本，声称文本渲染能力更强。

没错，就是那个成立于去年8月，由谷歌AI绘画4大牛集体离职创业的项目，曾获得过一众AI大佬投资。

此番Ideogram还公开叫板Flux，官方自信表示其人类评估明显优于Flux Pro。

要知道，Flux由Stable Diffusion原班人马打造，最近正在因生成以假乱真的TED演讲“照片”而走红各大网络。

除此之外，一周前，谷歌正式放出了Imagen 3，在官方评估中，号称表现优于DALL-E 3、Midjourney v6、Stable Diffusion 3等一众绘图模型。

或许是受刺激了（doge），Midjourney竟然也转性了，在8月22日直接向所有用户推出了免费网页版。

这下有好戏看了！

既然大家都宣称自己很强，那我们不妨把大家拉到一桌，来搞个面对面PK。

谁是最强绘图AI？

先请出咱们的4位参赛选手（全部使用网页版）：

1号选手：Ideogram 2.0。每天免费有10积分，1积分可以生成4张图，每天最多生成40张图；
2号选手：Flux.1。黑森林官方在Hugging Chat提供了免费demo（选FLUX.1 Schnell版本）；
3号选手：Imagen 3。在Image FX上可以免费无限次使用；
4号选手：Midjourney。免费试用期一共只有生成25张图的机会；

下面正式进入比赛环节。

黑猴子全翻车了

一上来，为了检验这些国外AI是否理解中文提示词，咱们也来蹭一波当今顶流黑猴子的热度。

prompt：游戏角色，一只猴子，身披盔甲，头戴凤羽金冠，手上拿着一根金箍棒，站在一座悬崖之上。

不出意外，意外发生了……

相信大家一眼都被3号的大红叉给吸引了。没错，同一提示词下，只有3号Imagen 3拒绝了生成请求。

看到这儿，第一反应是我们的提示词是不是触发了版权保护。于是先删掉了提示词中的“游戏角色”，结果还是提醒无法生成。

难道是谷歌Imagen 3不支持中文？于是又随机换了一个更简单的提示词，这下倒是有图了。

只不过结果一整个大错误，而且换了多个中文提示词，最终都是一些毫不相关的纹路图。

看来谷歌Imagen 3确实对中文提示词不ok。

3号落榜之后，再看其他几位，也只有1号Ideogram 2.0表现最佳。

2号倒还能看出国漫的影子，4号Midjourney则完全放飞自我了~（主打一个毫不相干）

最后还是要表扬下Ideogram 2.0，精准命中了所有关键元素。

虽然不是本人心中想要的东西（想要黑神话），但提示词还原度确实没毛病。

是真人还是AI？傻傻分不清楚

接下来进入各位选手的舒适区——人像生成。

遥想当年，Midjourney以一张天台情侣合照火爆网络；眼下，Flux更是以一组TED演讲图风靡全网……

究竟谁更胜一筹？答案马上揭晓。

prompt：A young man with auburn hair, wearing a checkered shirt in teal and cream, captured with a 50mm lens for a vintage look. Rich colors, sharp focus, and a touch of retro charm.
一位红褐色头发的年轻男性，身着蓝绿色奶油色方格衬衫，用50mm镜头捕捉复古风格。色彩丰富，焦点清晰，带有一丝复古魅力。

先单看2号和4号，很明显，Midjourney赢了！

从细节上看，2号Flux.1稍有偏差，衣服颜色多了两种，这在一水的蓝绿格子衬衫中尤为突出。

另外，一上来我们还发现了Imagen 3独有的一个小亮点：在生成开始前圈出关键词。

借着它完成的工作，我们正好可以检验几位选手对关键元素（蓝绿色方格衬衫、50mm镜头等）的还原程度。

可以看到，整体上几位选手表现都不错（除了2号），还原度较高且都看向了镜头。

而且，要不是这些都是本人亲自用AI生成的，还真无法一下子辨认与真人的区别。（汗颜）

最后悄咪咪说一句，4号选手Midjourney颜值最高。

老大难：图片显示文字

成功骗过了所有人之后，是时候让AI吃点苦头了——

给图片加文字。

这事儿一直都是个老大难，也成了检验AI生图水平的标准之一。

话不多说，直接让几位选手制作一块精美的广告牌。请各位看官老爷自行带入甲方爸爸角色。

prompt：A horizontal brass sign reading ‘Festive Season’ in a stylish script, encircled by pine and holly on a dark wood backdrop, with a close-up focus on the golden lettering.
一块水平黄铜标牌，上面以时尚手写体写着’Festive Season’，周围环绕着松枝和冬青，背景是深色木材，特写镜头聚焦于金色字体。

一眼扫过，是不是都还不错，好像都高度还原了提示词？

但是，一旦拿出甲方爸爸的犀利眼神，这2号可就藏不住了。

注意看，2号Flux.1偷工减料了，单词“Season”少了一个字母“S”。

不过除了2号，其他几位还是不错滴，看来各家AI在文字渲染功能上都下功夫了。

所以接下来就是，萝卜青菜各有所爱，大家凭个人喜好做选择。（私心投给了Midjourney）

对了，1号Ideogram这次型号升级还特意拿“文字渲染”功能做宣传了，大家不妨多试试。

参考麦当劳，整点AI广告

最近，麦当劳请了11个AI美女为薯条疯狂打call，狠狠火了一把~

其实原理也比较简单，无非是用AI生成不同角色宣传薯条的图片，再拼接成一个视频。

没想到效果惊人，仅在推特一个平台，相关视频就获得了近千万浏览量。

掌握财富密码后，咱们正式开干，身为中国人，AI助农高低得走起~

prompt：Against the backdrop of a cyberpunk-style metropolis, a girl is promoting organic agricultural products in her hands.
在赛博朋克风格的都市背景下，一位女孩正宣传着手中的有机农产品。

很好，3号选手再次“摆烂了”。不过这波着实令人费解，提示词既不是中文，也没有明显违禁的地方……

淘汰3号后，1号选手Ideogram 2.0带货种类最为丰富，大白菜、西红柿、紫甘蓝等应有尽有。

而且它是唯一一个打出文字招牌来宣传有机食品的，看得出来相当卖力了~

另外，细看还能发现只有1号在尽力模仿真人，而2号和4号则完全走上了二刺猿。

u1s1，如果参考麦麦的广告风格，这一次的短暂生成确实没有达到理想效果。（希望更贴近真实一点）

但是，好在这几个AI工具目前都可以免费用，多来几次也不是不行，重点还是方法论。[doge]

别急着走，其实还有一个更靠谱的搞钱方法——

用AI轻松拿捏棚拍商业宣传海报，省下请摄影师、场地和后期的钱不香嘛。

A sleek lipstick tube gleams against a backdrop of sophistication, highlighting the rich pigment and smooth glide. Evoke luxury with sharp focus and a hint of shimmer.
一支光滑的口红管在精致的背景前闪耀，突显出浓郁的色泽和顺滑的涂抹感。以锐利的焦点和一抹微光唤起奢华感。

考考大家，假如你要给身边某位女性挑一只口红，你会选哪只？（死亡考验来了）

嘿嘿，所以有人选4号了吗？

虽然4号Midjourney看起来灰常高级，但这个黑色可能有点小众了。（慎选）

除了它，接下来表现最好的是3号Imagen 3，底下丝绒布料衬托出奢华感，且最重要的是，口红质地很真实。

对比之下，1号和2号都显得有点假，“塑料感”扑面而来。

因此这一局，整体来说3号选手获胜。

小结一下，整体而言4位选手表现都非常不错。中文提示词下，黑马选手Ideogram 2.0表现最好。

谁是Ideogram？

今年2月，Ideogram推出了1.0版本，短短半年时间，它再次进化上线了2.0版本。

事实上，Ideogram与谷歌可谓“沾亲带故”。

成立于去年8月，创始团队中前4人都是谷歌文生图研究Imagen论文作者。

CEO Mohammad Norouzi，论文共同一作，他在多伦多大学计算机科学博士就读期间拿到了谷歌ML博士奖学金。

毕业后他加入谷歌大脑工作了7年，职位也一路升至高级研究科学家，主要研究的就是生成模型。

此外，他也是谷歌神经机器翻译团队的原始成员，Hinton团队自监督对比学习框架SimCLR的合著者。

CTO William Chan（陳俊樂），论文共同一作，他先后就读于加拿大滑铁卢大学、卡内基梅隆大学。

他2012年加入谷歌时先做的机器学习广告工程，后转到谷歌大脑作NLP研究。

联合创始人 Jonathan Ho，博士毕业于UC伯克利，曾在OpenAI工作一年，后加入谷歌。

他除了是Imagen论文的核心贡献者，还是去噪扩散模型奠基之作《Denoising Diffusion Probabilistic Models》的一作，这篇论文合著者中的Pieter Abbeel也是Ideogram AI的投资人。

联合创始人 Chitwan Saharia，论文共同一作，本科毕业于孟买理工学院，2019年加入谷歌，在谷歌主要负责领导image-to-image扩散模型的工作。

创始团队中的另外三人，Shayaan Abdullah曾是Twitter的机器学习工程师，于去年4月离职，后加入Ideogram AI。

Jacob Lu为软件工程师，加入Ideogram之前曾在亚马逊等公司任职；Jenny Lei是软件工程实习生，加入Ideogram AI之前曾在谷歌实习。

可以看出，Ideogram由顶级扩散模型研究团队组成，自成立之初便获得了资本青睐。

Ideogram种子轮融资由a16z和Index Ventures领投，金额1650万美元（当时约1.2亿人民币）。

个人投资者中也不乏Andrej Karpathy、强化学习大牛Pieter Abbeel，GitHub联合创始人Tom Preston-Werner等。

另外，今年2月，多方消息传出Ideogram进行了新一轮融资。

据称成功筹集了8000万美元（约57亿人民币）A轮融资，领投方为Andreessen Horowitz，其他参与投资者包括Index Ventures、Redpoint Ventures、Pear VC和SV Angel。

看来有钱、有技术的Ideogram无疑又是AI生图领域的一匹黑马。

卷，继续卷。

Ideogram 2.0链接：
https://ideogram.ai/t/explore

Midjourney链接：
https://www.midjourney.com/home

Flux链接:
https://huggingface.co/spaces/black-forest-labs/FLUX.1-schnell

Imagen3链接：
https://aitestkitchen.withgoogle.com/tools/image-fx

参考链接：
[1]https://x.com/ideogram_ai/status/1826277550798278804
[2]https://ideogram.ai/launch
[3]https://x.com/AIandDesign/status/1826277963681370213

图像生成

白交

Midjourney地位不稳？AI绘图又一黑马出现，附4款产品一手实测

谁是最强绘图AI？

黑猴子全翻车了

是真人还是AI？傻傻分不清楚

老大难：图片显示文字

参考麦当劳，整点AI广告

谁是Ideogram？

相关阅读

英伟达超快StyleGAN回归，比Stable Diffusion快30多倍，网友：GAN好像只剩下快了

何恺明新作：简单框架达成无条件图像生成新SOTA！与MIT合作完成

视频台词现在不用背也不用配，连对口型都免了

博士意外发现秘密：DALL-E 2自创语言，人看不懂但能生成特定图像，可能会被用来搞事！

谷歌P图神器来了！不用学不用教，输入一句话，分分钟给结果

如果让AI根据文字画「抽象画」，那得成什么样？｜DeepMind新算法

热门文章

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

3分钟搭建一个调用支付宝的智能体，MCP爆发，蚂蚁推了一把

趣丸科技贾朔：AI音乐迎来应用元年，五年内将重构产业格局｜中国AIGC产业峰会

谷歌大模型“性价比之王”来了！混合推理模型，思考深度可自由控制，竞技场排名仅次于自家Pro