智东西
作者 | 江宇
编辑 | 漠影
智东西6月16日报道,腾讯混元团队于6月14日正式开源了其混元3D 2.1大模型。
这款模型作为首个全链路开源的工业级3D生成大模型,其核心在于对3D资产生成流程的全面优化,尤其是在几何质量和材质表现上的提升,并首次开放了PBR(基于物理的渲染)材质生成能力。
一、几何更细腻,材质更逼真
混元3D 2.1在混元3D 2.0的基础上,优化了“几何-纹理解耦”架构,这使得模型在处理3D资产时,兼具形态细节和视觉表现。
1. 几何生成:基于DiT架构的细节建模优化
混元3D 2.1的几何生成能力,得益于其采用的DiT(Diffusion Transformer)几何架构。这一架构进一步优化了3D网格细节建模能力。
无论结构轮廓还是微观纹理,该模型都能输出更高精度、形状一致性的网格,为后续材质渲染打下高质量基础。
2. 纹理生成:引入PBR材质,实现光学效果
混元3D 2.1在开源模型中首次集成了PBR(Physically Based Rendering)纹理生成技术,通过多视图生成、逆渲染和贴图技术的协同作用,该模型不再仅仅生成简单的RGB颜色贴图,而是能够输出一套完整的PBR纹理。这些纹理包括:
这些PBR贴图通过模拟光线与材质的物理交互,能够真实还原皮革、木质、金属、陶瓷等多种复杂材质的固有属性。
与传统的RGB贴图相比,PBR技术能够确保模型在不同光照环境下呈现出始终如一的视觉效果。
用户盲测数据显示,混元3D 2.1生成的PBR纹理在质感表现上,胜出传统RGB贴图的比例高达78%。
PBR材质的标准化特性,也使其能够无缝兼容Unreal Engine、Unity等主流渲染引擎,可大幅提升3D资产的跨平台适配与工业落地效率。
三、混元3D经三轮迭代,代码、权重、流程全面开放
目前,开发者不仅可以获得模型权重,还能接触到完整的训练代码和数据处理流程。
这种开放度允许用户根据自身需求进行微调、二次训练或深度优化,满足定制化的开发需求,也为学术研究提供了平台。
在部署方面,混元3D 2.1支持消费级显卡运行,并在GitHub等开源社区提供了使用教程,降低了应用门槛。
自2024年11月首次开源3D生成模型以来,混元3D持续迭代:
此外,混元3D团队还发布了3D AI创作引擎。该引擎具备文生、图生以及多视图输入功能,并加入了智能拓扑能力——通过自回归技术,能够生成拓扑结构接近手工布线的低模。
同时,该引擎整合了多套针对3D设计师需求的专业工作流,覆盖角色/道具设计等场景,充分满足游戏开发、动画影视及3D打印等专业领域的需求。
目前,混元3D模型在Hugging Face平台的下载量已突破180万次,在全球开源社区中保持高活跃度。
四、实际体验:上传图片,一键生成手办3D模型
智东西第一时间在混元3D AI创作引擎(混元3D-V2.5)上进行了体验,将图片导入后,即可生成3D模型。
用户仅需上传符合规格的图像,即可自动生成3D模型。平台支持上传PNG、JPG、JPEG、WebP格式,最大10M,最低分辨率128×128,建议背景纯色、单一主体、无文字干扰。
参考图:
在上传参考图后,用户可选择是否生成PBR贴图,生成流程约耗时180秒,最终导出可在3D引擎中直接调用的模型资产。
效果模型:
用户还可以通过绑定骨骼来驱动动作,生成3D动画。在体验过程中,智东西选择了摔倒动作,此外,还可以选择挥击、跳舞等其他动作。
3D动画展示:
结语:国产3D生成模型,开始接近“能用”的标准
混元3D 2.1在其开源体系中首次加入PBR材质生成能力,使国产3D模型在几何和纹理两个维度上进一步靠近工业制作标准。
相比传统RGB贴图,也让该模型在游戏、影视等场景中的应用可能性上了一个台阶。
不过,“能用”的判断不仅取决于生成效果本身,更取决于它能否融入真实生产链条、适配行业工具与流程规范。对国产3D模型来说,从参数升级到产业嵌入,是接下来更艰难的一段路。