银河证券：VideoWorld模型开源推动纯视觉训练新突破_知识

银河证券：VideoWorld模型开源推动纯视觉训练新突破

创始人

2025-02-12 13:17:05

财中社2月12日电银河证券发表研究报告称，2月10日，豆包大模型团队联合北京交通大学、中国科学技术大学共同开发的视频生成实验模型“VideoWorld”开源。

纯视觉训练模型,摆脱语言模型依赖。现有的各类多模态模型如GPT、Sora等大多较为依赖语言或标签数据学习知识，较少涉及纯视觉信号的学习。videoWorld可以通过纯视觉的方式进行学习训练:团队构建了一个包含大量视频演示数据的离线数据集，让模型以“观看”的方式进行训练学习，最终得到一个可以根据过往观测到的视觉输入来推演、预测未来画面的视频生成器。VideoWorld摆脱了以往模型对语言模型的依赖，通过纯视觉的方式进行学习，改变了以往的模型需要对语言文本进行理解后再进行推理的定式，有望简化模型的输入-理解-推理-输出链条。

引入潜在动态模型，提高视频学习效率。目前，传统的视觉的训练方式由于需要将画面转换为离散标记后进行学习。例如，在围棋的训练过程中，模型只需通过少量的棋子位置标记，但在数据的编码过程中，编码器会产生过多冗余标记，不利于模型对复杂知识的快速学习，使得视频序列的知识挖掘效率显著落后于文本形式。VideoWorld引入了一个潜在动态模型(LatentDynamics Model,LDM)，可将帧间视觉变化压缩为紧凑的潜在编码，提高模型的知识挖掘效率。最终，VideoWorld在仅有300M参数量且不依赖任何奖励函数机制的条件下，达到9x9围棋专业五段的水平，在机器人任务上也展现出了复杂环境下的泛化能力。

LDM具备前规划能力，模型生成的编码具备因果关系。在围棋相关的训练中，LDM建模了训练集中常见的走棋模式，并能将短期和长期数据模式压缩至潜在空间中。对LDM的模型推理过程进行UMAP可视化后发现，LDM模型生成的潜在编码按照时间步(Time-step）进行分组，使得模型能够从更长远视角进行围棋决策。此外，用随机标记替换不同时间步的潜在编码的实验从侧面说明模型可生成因果相关编码，理解因果关系。

上一篇：汽车行业业绩前瞻：56家预喜，北汽蓝谷等3家预亏超10亿

下一篇：弘成AI产品接入DeepSeek，AI智课智慧升级

银河证券：VideoWorld模型开源推动纯视觉训练新突破

相关内容

热门资讯