腾讯3D大模型全面开源，文本图像10秒转3D资产，模型权重、推理代码全开放

西风 2024-11-05 15:17:33 来源：量子位

一次发俩版本

西风发自凹非寺

量子位 | 公众号 QbitAI

3D生成开源界首个同时支持文字、图像转3D的模型来了，效果还是SOTA级别。

就在刚刚，腾讯宣布推出Hunyuan3D-1.0，一口气开源轻量版和标准版两个模型。

最快10秒就能端到端生成。

先生成6个多视角图像，再进行多视角重建，“啪”的一下360度无死角的3D资产就造出来了。

腾讯3D大模型全面开源，文本图像10秒转3D资产，模型权重、推理代码全开放

无论是人物形象：

腾讯3D大模型全面开源，文本图像10秒转3D资产，模型权重、推理代码全开放

还是像下面这样婶儿的葡萄等复杂结构生成，细节都蛮不错：

腾讯3D大模型全面开源，文本图像10秒转3D资产，模型权重、推理代码全开放

薄薄的枫叶也能完整生成：

腾讯3D大模型全面开源，文本图像10秒转3D资产，模型权重、推理代码全开放

镂空雕刻花纹生成效果Belike：

腾讯3D大模型全面开源，文本图像10秒转3D资产，模型权重、推理代码全开放

实验中，Hunyuan3D-1.0定性定量评估均超越此前SOTA开源模型，推理性能提升很大，轻量版A100 GPU上生成时间约10秒，标准版约25秒。

目前Hunyuan3D-1.0模型权重、推理代码、模型算法等，已全部开源。

量子位童鞋在发布现场，还拿到了3D生成后直接拿来3D打印的小手办～

腾讯3D大模型全面开源，文本图像10秒转3D资产，模型权重、推理代码全开放

多视图生成、重建两步炼成

技术实现上，腾讯混元团队发布了一份技术报告。

腾讯3D大模型全面开源，文本图像10秒转3D资产，模型权重、推理代码全开放

Hunyuan3D-1.0模型架构如下，采用多视图生成、多视图重建两阶段生成方法。

腾讯3D大模型全面开源，文本图像10秒转3D资产，模型权重、推理代码全开放

对于输入图像，首先使用多视角扩散模型在固定相机视角下合成6个新视角图像，从不同的视角捕捉了3D资产丰富的纹理和几何先验，将3D生成任务从单视角重建转化为难度更低的多视角重建任务。

腾讯3D大模型全面开源，文本图像10秒转3D资产，模型权重、推理代码全开放

然后将生成的多视角图像输入基于Transformer的稀疏视角大规模重建模型。

利用上一阶段生成的多视角图像，重建模型学习处理多视角扩散引入的噪声和不一致性，并利用条件图像中的可用信息高效恢复3D结构。

腾讯3D大模型全面开源，文本图像10秒转3D资产，模型权重、推理代码全开放

最终，该模型可以实现输入任意单视角生成3D资产。

腾讯3D大模型全面开源，文本图像10秒转3D资产，模型权重、推理代码全开放

具体来说，第一阶段多视图生成采用了自适应CFG（classifer-free guidance），为不同视角和time steps设置不同的CFG尺度值。

在输入视角的临近视角CFG大，保证生成控制更强，与输入图更接近；较远视角CFG小，生成diversity更大，保证生成图像的真实性。

腾讯3D大模型全面开源，文本图像10秒转3D资产，模型权重、推理代码全开放

另外，为了保证角度鲁棒性、兼容任意输入视角，渲染训练数据时候，渲染不同俯仰角作为输入，输出0°俯仰角的多视图。

输入任意视角图像，生成环绕一圈的俯仰角elevation=0的6张图，最大化多视图间的可见区域，并通过attention保持多视角一致，为下一步的多视图重建模型提供高一致性、高真实性的多视图图像。

在第二阶段多视图重建方面，Hunyuan3D-1.0结合了已校准（生成的多视角图像）和未校准（用户输入）的混合输入，通过专门的视角无关分支整合条件图像信息，由此以提升生成图像中的不可见部分精度。

图像信息通过cross-attention注入triplane token中。

Hunyuan3D-1.0还通过线性层将特征平面的分辨率从64上采样到256，使得特征表征更加细腻，生成物体细节更丰富。

腾讯3D大模型全面开源，文本图像10秒转3D资产，模型权重、推理代码全开放

值得一提的是，Hunyuan3D-1.0还采用了Signed distance function（SDF）的隐式表示，最后通过Marching cube算法在三维空间进行采样查询得到signed distance来输出3D mesh，可以直接与3D管线结合。

拿下开源新SOTA

实验结果显示，Hunyuan3D-1.0具有强大泛化能力和可控性，可重建各类尺度物体，大到建筑，小到工具花草。

在两个公开3D数据集GSO、OmniObject3D上定量评估3D生成质量，包括Chamfer Distance（CD）、F-score （FS）指标，Hunyuan3D-1.0表现总体最优。

腾讯3D大模型全面开源，文本图像10秒转3D资产，模型权重、推理代码全开放

定性评估方面，Hunyuan3D-1.0在几何细节、纹理细节、纹理-几何一致性、3D合理性、指令遵循等评价维度上，全面超越SOTA开源模型。

腾讯3D大模型全面开源，文本图像10秒转3D资产，模型权重、推理代码全开放

用户喜好打分结果如下：

腾讯3D大模型全面开源，文本图像10秒转3D资产，模型权重、推理代码全开放

Hunyuan3D-1.0在保证高质量、多样化生成之外，推理性能也大幅提升，显著减少了3D资产生产的耗时。

腾讯3D大模型全面开源，文本图像10秒转3D资产，模型权重、推理代码全开放

“3D生成技术今年已进入快速发展阶段”

推出Hunyuan3D-1.0的同时，腾讯混元3D大模型也正在落地应用中——

据了解，腾讯地图目前就已基于腾讯混元3D大模型，发布了自定义3D导航车标功能，支持用户创作个性化的3D导航车标。

腾讯元宝APP也上线了“3D角色梦工厂”，支持个性化的UGC 3D人物生成。

腾讯3D大模型全面开源，文本图像10秒转3D资产，模型权重、推理代码全开放

今年3D赛道实属火炎焱。

国内有VAST、AVAR AI等，初创公司多来自全球知名高校和科研机构；国外有AI教母李飞飞首次创业成立的空间智能公司World Labs，也着眼于3D生成世界，宣布长期目标是构建大世界模型（LWM）来感知、生成3D世界并与之交互。

鹅厂这波开源操作，无疑是把大伙儿玩3D模型的门槛又打下来了。

正如腾讯混元3D负责人郭春超所说：

3D生成技术今年已进入快速发展阶段，3D AIGC作为新的生产力工具，能为复杂的传统3D制作流程提效，可应用于游戏、工业制造、社交娱乐等领域，未来可能会与机器人等领域结合，赋能空间智能。

官网地址：https://3d.hunyuan.tencent.com/

版权所有，未经授权不得以任何形式转载及使用，违者必究。

AI 3D生成开源腾讯

相关阅读

路上放三枚小贴纸，特斯拉就拐进了反向车道：腾讯“骗”出AutoPilot三大缺陷

另外，游戏手柄也能控制汽车。

栗子2019-04-01

特斯拉腾讯自动驾驶

单卡跑Llama 70B快过双卡，微软硬生生把FP6搞到了A100里 | 开源

吞吐量比FP16提升2.65倍

克雷西2024-04-29

大模型开源微软

Meta「分割一切」进化2.0！跟踪运动物体，代码权重数据集全开源

网友：真正的OpenAI

明敏2024-07-30

Meta SAM2 图像分割开源视频分割

腾讯新研究登Nature子刊，让细胞与计算机直接“对话”，还能辅助医生精准治癌

目前该项目已开源。

韩智2022-10-01

RNA 腾讯

字节跳动开源分布式训练框架BytePS，登上GitHub热榜

比Horovod更强

问耕2019-06-29

BytePS GitHub 字节跳动开源框架

用游戏技术快速生成，如今“建设”一座机场只需三天时间

半天就能重建2000平方公里城市，3天“生成”1个机场，这些在真实世界中不可能完成的任务，正在被游戏开发者借助PCG程序化生成技术，为虚拟世界带来更多可能，并在我国首个完全自研“全动飞行模拟机视景系统”中大显身手

量子位2023-06-25

游戏腾讯

热门文章

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

3分钟搭建一个调用支付宝的智能体，MCP爆发，蚂蚁推了一把

中国AI投资五小龙：南林北曹，东剑西米，中王淮；清一色985理工科背景

趣丸科技贾朔：AI音乐迎来应用元年，五年内将重构产业格局｜中国AIGC产业峰会