效果超越Gen-2！字节最新视频生成模型，一句话让绿巨人戴VR眼镜

白交 2024-01-11 13:57:11 来源：量子位

支持超高分辨率，轻松hold各种绘图风格。

白交发自凹非寺

量子位 | 公众号 QbitAI

一句话，就让绿巨人戴上VR眼镜。

4K画质那种。

熊猫的奇幻漂流~

这是字节最新的AI视频生成模型MagicVideo-V2，各种奇思妙想的想法都能实现。它不仅支持4K、8K超高分辨率，轻松hold各种绘图风格。

测评效果超过Gen-2、Pika以及现有AI视频生成工具。

结果上线不到24小时就引发众人围观，比如一条推文就有近20万浏览量。

不少网友惊讶其效果，甚至直言：比runway和pika还要好。

“比runway和pika还要好”

研究人员也的确进行了实际的效果比较。选手分别为：MagicVideo-V2、StabilityAI的SVD-XT，新潜力玩家Pika1.0，以及Runway的Gen-2。

第一轮：光影效果。

夕阳西下，旅行者独自行走在迷雾森林中。

（从左到右依次是：MagicVideo-V2、SVD-XT，右上Pika，右下Gen-2，下同）

可以看到，MagicVideo-V2、Gen-2和Pika都有明显的光影。不过Pika看不出是为旅行者，MagicVideo-V2的色调更为丰富。

第二轮：情境剧情的表达。

1910 年代的情景喜剧，讲述社会中的日常生活和琐事

这一轮明显也是MagicVideo-V2、Gen-2更胜一筹。SVD-XT呈现的中景构图，虽然年代体现出来了，但表达不够。

第三轮：写实。

小男孩在公园的小路上骑着自行车，车轮踩在碎石上发出嘎吱嘎吱的声音.

这次对比就更为明显了。MagicVideo-V2和SVD-XT是完整体现出句子意思的，不过MagicVideo-V2可以看到小孩明显脚在动的细节。

除此之外，研究人员还将MagicVideo-V2与当下最先方法进行一对一的人类评估。

结果显示，相较于其他方法，人们认为MagicVideo-V2的效果更好。

（绿色、灰色和粉色条分别代表 MagicVideo-V2 被评价为更好、相当或较差的试验效果。）

如何实现？

简单来说，MagicVideo-V2是一条视频生成流水线，集成了文本到图像模型、视频运动生成器、参考图像嵌入模块、插值模块。

首先是有T2I模块首先根据文字生成1024×1024图像，随后I2V模块对该静态图像进行动画处理，生成600×600×32的帧序列，然后再用V2V模块增强，并完善视频内容，最后再用插值模块将序列扩展到94个帧。

这样一来，既保证了高保真，时间上也有连续性。

不过早在2022年11月字节曾推出了MagicVideo V1版。

不过，当时更强调的是高效性，它能在单个GPU卡上生成256×256分辨率的视频。

参考链接：
https://twitter.com/arankomatsuzaki/status/1744918551415443768?s=20
项目链接：
https://magicvideov2.github.io/
论文链接：
https://arxiv.org/abs/2401.04468
https://arxiv.org/abs/2211.11018

AI视频生成字节跳动

白交

首个AI科学家发论文进ICLR！得分6/7/6，从选题到实验全程零人工2025-04-09
AI应用突围，中小企业的新周期已至2025-04-11
商汤大装置发放“1亿代金券”，全栈赋能场景落地2025-04-10
米哈游蔡浩宇新作iPhone实机演示：10分钟就被AI小美撩到脸红，她的命运由我掌控2025-04-07

效果超越Gen-2！字节最新视频生成模型，一句话让绿巨人戴VR眼镜

“比runway和pika还要好”

如何实现？

相关阅读

腾讯版Sora发布即开源！130亿参数，模型权重、推理代码全开放

帮视障人士“看见”图片字节跳动最新视觉语言预训练模型入选ICML 2022

字节AI实习生搞出这个玩意儿，撩到了图灵奖大神，我用了用结果画风逐渐鬼畜起来……

抖音秘籍，对外开放

字节跳动发布关于TikTok若干不实传言的说明

字节跳动加码企业服务，旗下火山引擎正式进军云市场

热门文章

AI应用突围，中小企业的新周期已至

全球首个Linux开发本：50TOPS算力，DeepSeek都配好了，可随地大小开发

「千匹马力」被比亚迪打成白菜价：最新汉唐21万起售，比小米SU 7Ultra更小米！兆瓦闪充高阶智驾都标配

SOTA自动绑骨开源框架来了！3D版DeepSeek开源月大礼包持续开箱ing

刚刚，商汤发布第六代大模型：6000亿参数多模态MoE，中长视频直接可推理

效果超越Gen-2！字节最新视频生成模型，一句话让绿巨人戴VR眼镜

“比runway和pika还要好”

如何实现？

相关阅读

腾讯版Sora发布即开源！130亿参数，模型权重、推理代码全开放

帮视障人士“看见”图片 字节跳动最新视觉语言预训练模型入选ICML 2022

字节AI实习生搞出这个玩意儿，撩到了图灵奖大神，我用了用结果画风逐渐鬼畜起来……

抖音秘籍，对外开放

字节跳动发布关于TikTok若干不实传言的说明

字节跳动加码企业服务，旗下火山引擎正式进军云市场

热门文章

AI应用突围，中小企业的新周期已至

全球首个Linux开发本：50TOPS算力，DeepSeek都配好了，可随地大小开发

「千匹马力」被比亚迪打成白菜价：最新汉唐21万起售，比小米SU 7Ultra更小米！兆瓦闪充高阶智驾都标配

SOTA自动绑骨开源框架来了！3D版DeepSeek开源月大礼包持续开箱ing

刚刚，商汤发布第六代大模型：6000亿参数多模态MoE，中长视频直接可推理

帮视障人士“看见”图片字节跳动最新视觉语言预训练模型入选ICML 2022