破解空间智能数据稀缺难题，影石开源DiT架构全景生成模型，在线可玩_知识

破解空间智能数据稀缺难题，影石开源DiT架构全景生成模型，在线可玩

创始人

2025-10-18 10:47:03

影石研究院团队投稿

量子位 | 公众号 QbitAI

空间智能领域的全景数据稀缺问题，有解了。

影石研究院团队，推出了基于DiT架构的全景图像生成模型DiT360。

通过全新的全景图像生成框架，DiT360能够实现高质量的全景生成。

DiT360提出了一个基于DiT架构的混合训练框架，充分结合透视图像与全景图像数据，在保持真实感的同时提升几何一致性。

而且同时支持多项任务，并在边界一致性、图像保真度和感知质量等方面均优于现有方法。

破解真实全景数据稀缺问题

全景图像生成正在成为通向“空间智能”的关键一步，随着世界模型和具身智能的发展，模型需要更好地“看见”并理解整个三维世界。

全景图像能提供连续360°的沉浸式视野，对AR/VR、自动驾驶、机器人导航等应用都至关重要。

但相比普通图像，生成全景图要面对无缝衔接、极区畸变等几何难题；同时，真实全景数据稀缺且质量有限，也让模型难以学到高质量的几何与纹理特征，限制模型的生成质量与泛化能力。

针对全景图像独特的几何特性，研究者主要有两种思路。

一种是把全景图拆成多个平面视角（立方体投影），这样可以减轻极区畸变的问题，但容易在视图边界出现接缝；另一种方法则直接在球面上生成全景图（等距矩形投影），整体更连贯，但极区畸变和边界一致性的问题依然存在。

另外，由于真实全景数据稀缺，也有研究者尝试用渲染数据训练模型，但缺少真实光照和纹理，使得生成的结果充满了“渲染感”；另有尝试利用互联网的全景视频和图片，但这些数据噪声太多，很难支撑高质量的生成。

在高质量全景数据稀缺的情况下，如何让模型学会理解全景图像的几何特性成为关键。

为此，团队提出了DiT360——一个基于Diffusion Transformer（DiT）架构的全景图像生成模型。

DiT360设计了一种分层混合训练框架，结合有限的全景数据和大规模高质量的透视图像，让生成结果在真实感和几何一致性上都实现了显著提升。

DiT360可在室内、室外等多种场景下生成高分辨率（2048×1024）的全景图像，展现出出色的细节和真实感。在边界一致性和极区畸变建模方面，相比现有方法有明显优势，能够生成结构连续、几何稳定的全景结果。

总结而言，DiT360的主要贡献包括：

全新的全景图像生成框架：提出了一个基于DiT架构的混合训练框架，充分结合透视图像与全景图像数据，在保持真实感的同时提升几何一致性。与以往主要聚焦模型结构设计的工作不同，DiT360更强调多域数据的高效融合与协同利用，从而实现更高质量的全景生成。
多层次的混合训练机制：在图像层面，通过对全景数据的去伪影处理与透视图像的投影引导，提升生成结果的多样性和真实感；在特征层面，通过旋转一致性和畸变感知的几何约束，强化潜空间中的结构合理性与空间连续性；
多任务支持：DiT360同时支持文本引导的图像生成、inpainting和outpainting等多项任务，并在边界一致性、图像保真度和感知质量等方面均优于现有方法。

多层级混合训练框架

DiT360是一个面向全景图像生成的多层级混合训练框架，旨在同时提升生成结果的真实感和几何一致性。

不同于以往主要关注模型结构设计的方案，DiT360从图像层面和特征层面两个方向出发，充分利用透视图像与全景图像的互补特性，在有限真实数据的条件下实现跨域知识迁移与高保真生成。

图像层级：跨域正则化与知识迁移

图像层级方法的目标是弥补真实全景数据的不足，同时减少由极区畸变和伪影带来的训练偏差。研究团队提出了两种互补机制——全景图像精修与透视图像引导，分别用于提升全景数据的结构质量和实现透视数据的跨域迁移。

现有的真实全景数据（如 Matterport3D）受采集设备与方式限制，极区区域常出现模糊、拉伸和伪影，直接用于训练会导致生成结果在极区模糊失真。

为此，研究团队提出基于立方体空间变换的精修策略：将等距矩形投影图像映射到立方体空间，在极区对应面进行掩码和修复操作，以去除伪影并重建细节，最后再反投影回 ERP 空间，得到细节更清晰、视觉更自然的全景图像。

这一策略显著提升了模型对高质量区域的学习和生成能力。

虽然高质量全景数据稀缺，但互联网上有大量高分辨率、语义丰富的透视图像可作为潜在知识源。为此，研究团队提出投影感知正则化机制，将透视域知识迁移到全景域。

通过球面投影将透视图像映射到全景空间，并引入类全景引导损失，使模型能从透视图像中学习真实的纹理和语义结构，从而更好地理解和建模全景中的畸变规律，显著提升生成结果的细节和多样性。

特征层级：几何一致性与畸变感知

在特征层面，研究团队关注VAE潜空间中的几何一致性和全局连续性问题。

全景图像在经度方向上天然连续（0° 与 360° 对应同一位置），并在极区存在强烈投影畸变，仅靠图像层面的监督难以保证特征一致性。

为此，研究团队在特征层面设计了三个关键模块：循环填充、旋转一致性损失与畸变感知立方体损失。

针对ERP图像在左右边界（0°/360°）的自然连续性，传统基于卷积的循环填充或循环去噪等操作往往造成边缘特征不连续，从而在生成结果中出现接缝伪影。

为了解决这一问题，研究团队在特征空间中引入循环填充机制：在每次卷积或注意力计算前，将左端特征复制到右端、右端特征复制到左端，并同步调整位置编码，使模型能学习到空间位置的对应关系，实现特征层的连续对齐。

这样模型能更好地理解全景图像的环绕结构，避免生成断裂。

在球面坐标下，全景图像的旋转应保持视觉一致。

为此，研究团队引入旋转一致性损失——在训练中随机旋转输入全景图像，并约束模型输出在旋转前后保持一致。

这一机制在潜空间中建立了全局旋转不变性，使模型能学习球面上各方向的等价关系，显著提升生成的方向鲁棒性。

由于ERP投影在极区存在明显的几何拉伸，常规像素损失难以准确衡量真实几何误差。

为此，研究团队引入畸变感知立方体损失，将模型预测结果映射到立方体空间，对每个面分别计算重建误差，并加入基于视角加权的畸变补偿项。

这样可以有效减轻ERP在极区的误差放大问题，让模型在极区也能保持稳定的空间结构与细节表现。

高质量的全景图像生成与泛化能力

团队将DiT360与当前全景图像生成领域的多种代表性方法进行了对比，包括MVDiffusion、PanFusion、SMGD、PAR、WorldGen、Matrix-3D、LayerPano3D和HunyuanWorld等。

这些方法几乎覆盖了现阶段的主流技术路线——从多视角拼接、自回归生成、结构优化，到基于Diffusion Transformer的生成架构。

实验结果显示，DiT360在视觉质量和几何一致性上均明显优于现有方法，并在多项指标上取得了领先表现。

全景图像生成

团队对DiT360进行了系统的定量评估，结果如表所示。

可以看到，DiT360在几乎所有指标上都取得了最佳成绩，在各项评价维度上展现出稳定而全面的优势。

无论是传统的图像质量指标（如 FID、Inception Score、BRISQUE），还是衡量视觉一致性的几何指标（如 FAED），DiT360都显著优于其他方法。

总体来看，这些定量结果与前述的定性分析一致——DiT360不仅在感知真实感和几何保真度上表现突出，而且在多项指标上实现了全面领先，充分验证了其生成高质量全景图像的有效性与鲁棒性。

为了进一步评估DiT360在人类感知层面的表现，团队组织了用户测评，比较了DiT360与现有方法（包括 PanFusion、Matrix-3D、HunyuanWorld）在文本对齐、边界连续性、真实感与整体质量四个维度的差异。

测评共邀请63位参与者，对测试集中不同方法生成的全景图像进行主观选择，选出最符合个人偏好的结果。

结果显示，DiT360在所有指标上均获得最高偏好比例，尤其在真实感和整体质量上优势明显，分别达到63.8%和80.9%，远超其他方法。

这一结果表明，DiT360不仅在客观指标上表现出色，也更符合人类对真实感和空间连贯性的主观认知，进一步证明了其在全景生成中的实际可用性。

消融实验

为验证各模块对整体性能的贡献，团队基于微调后的 Flux 构建了基线模型，并依次独立加入关键模块进行消融实验。

重点考察了四个核心设计：循环填充（Circular Padding）、畸变感知立方体损失（Cube Loss）、旋转一致性损失（Yaw Loss）以及透视图像引导（Perspective Image Guidance）。

实验发现：

循环填充显著提升了图像左右边界（0°/360°）处的一致性，同时整体画面质量也明显改善。这是因为在左右边界共享位置编码后，模型能够学习正确的空间对应关系，从而减少断裂或接缝伪影，使FID与BRISQUE等指标显著下降；
畸变感知立方体损失通过在立方体空间中引入额外几何监督，使模型能更准确地建模极区畸变，改善细节表现并提升IS与CLIP Score等指标；
旋转一致性损失强化了模型在球面坐标下的方向稳定性，使生成结果在结构连贯性上更优，在FAED指标上取得显著提升；
透视图像引导进一步增强了局部细节与视觉多样性，减少了伪影问题，并在关注风格与美学的指标（如QA）上表现突出。

综合来看，这些模块在不同层面共同提升了模型的感知真实感与几何一致性，当它们协同工作时，DiT360达到最佳整体性能，充分验证了框架设计的合理性与有效性。

更多任务

值得一提的是，DiT360在无需额外训练的情况下即可原生支持inpainting与outpainting任务，展现出其统一的全景生成框架与强泛化能力。

具体来说，团队首先通过反演获得输入图像的初始噪声表示，并提取参考图像的特征与主体区域掩码。

在早期去噪阶段，DiT360采用基于时间步自适应的特征替换策略——将被遮挡或需扩展的区域替换为参考图像中的对应特征，同时保留原始位置编码，从而在生成初期锚定主体结构与语义。

这种机制能有效保持生成内容在语义与空间上的一致性，使模型在补全与扩展任务中都能自然还原主体细节并维持全景结构连贯。

得益于此，DiT360在inpainting与outpainting场景中均能生成语义丰富、边界平滑、内容连贯的高质量全景结果。

本研究提出的DiT360展示了结合高质量透视图像与有限全景数据，以提升全景图像真实感和几何一致性的潜力。该方法不仅在静态全景图生成中表现突出，也为未来多模态、跨域的三维场景生成提供了思路。

未来，这种平面到全景的混合训练策略可以进一步拓展到全景视频生成、VR/AR 内容创作及动态场景模拟等任务中。

例如，将时序透视帧引入全景生成流程，有望实现高保真、连贯的全景视频生成；在开放世界环境建模中，利用平面图像弥补稀缺的全景数据，也能显著提升场景细节的真实感与空间一致性。

总体而言，DiT360不仅为当前全景图像生成提供了强有力的基线，也为未来三维场景理解、动态全景合成与虚拟世界构建开辟了新的方向。

在DiT360取得显著成果的同时，影石研究院团队也对自回归（AR）生成范式展开了系统研究，相关成果“Conditional Panoramic Image Generation via Masked Autoregressive Modeling”已被NeurIPS 2025接收。

论文链接：https://arxiv.org/abs/2510.11712

项目主页：https://fenghora.github.io/DiT360-Page/

GitHub：https://github.com/Insta360-Research-Team/DiT360

Demo：https://huggingface.co/spaces/Insta360-Research/DiT360

上一篇：科创001｜AI重构“双11”战场，再“卷”即时零售

下一篇：这场研讨会关注视障教育将如何被AI改变？

破解空间智能数据稀缺难题，影石开源DiT架构全景生成模型，在线可玩

相关内容

热门资讯