原创 开源视频模型打赢Gemini,京东AI加速跑
创始人
2026-06-23 19:07:02

监控画面里突然窜出火苗,直播中的爆款商品一闪而过,独居老人在房间意外摔倒,世界杯赛场上出现一脚绝杀……

现实里这些关键事件还很难被大模型处理,因为当前主流大模型多遵循轮次对话逻辑,必须接收用户指令才会启动视觉感知,面对转瞬即逝的场景天然存在结构性短板。

最近,京东正式开源实时视频视觉语言交互模型JoyAI-VL-Interaction,这也是全球首个全栈开源的interaction模型和系统,就是为了解决上面的结构性矛盾而生。

这不仅仅是一个新模型,而是一次对多模态AI交互范式的重构。

范式之变:从”等你问”到“我看着办”

2026年的多模态AI赛道很热闹,但热闹之下有一个根本问题没解决:现有系统的优化目标仍然是对话轮次,即在你说了之后,尽可能快地回答,交互围绕对话组织,等待用户的轮次到来。本质上,这是“更快更自然的问答机器”,而非“世界的观察者”。

这就是“轮次对话”与“流式交互”之间的范式鸿沟,也是京东JoyAI-VL-Interaction要填补的空白。

所谓“流式交互”(Streaming Interaction),核心区别不在回答速度,而在决策权归属:轮次对话模型无法自己选择开口时刻,而流式交互模型每一秒钟都在做判断:此刻值得开口吗?还是应该继续沉默观察?还是这个问题超出了实时推理的能力,应该委托给后台大模型?

我把这种范式转换概括为“三大跃迁”,也是多模态AI从“工具”向“伙伴”跃迁的关键三步:

第一大跃迁,是主动判断。传统模型要等用户发起问题才开始处理画面,而JoyAI-VL-Interaction可以持续观察视频流,自主判断什么时候该说话,什么时候该沉默。用户设置“裁判出示红牌时提醒我”,模型就会持续值守画面并在事件发生时自动预警,而不是等用户再问“刚才发生了什么”。会说话很重要,会沉默也同样重要。一个好的AI助手,不应一直打扰用户,而应知道什么时候该出现,什么时候该安静。

第二大跃迁,是实时响应,而非事后总结。在摔倒检测的场景中,JoyAI-VL-Interaction在人倒下的瞬间就发出警报,而Gemini则不支持持续画面实时监控。这是结构性能力的差异:前者持续在线观察,后者只在被轮询时才“睁开眼睛”。

第三大跃迁,是适时智能体委托,同时保持观察和交互。很多人会把“委托后台模型”简单理解为把难题甩出去,但JoyAI-VL-Interaction的做法很精妙:前台模型在委托的同时并不离开,它继续观察现场、保持与用户的实时连接,等后台结果返回后再自然接回对话。以往的Agent调用,多是“暂停当前任务、等待结果返回”的串行逻辑,JoyAI-VL-Interaction则将AI的交互拆成两条并行轨道:一条负责在场感,一条负责能力边界,两者是分工协作关系。这才是交互与生成之间真正的结构性分野,也是多模态AI从单体全能走向协作在场的关键一步。

一个真正的AI伴侣,不应该在你每次想聊天时才出现。它应该像一个朋友,静静地陪着你,在该说话的时候说话。京东的这个思路,比单纯堆砌参数,更具前瞻性。

硬核拆解:全栈开源背后的技术底气

范式转换需要技术底气支撑。JoyAI-VL-Interaction的技术架构,有几处值得仔细看的“巧思”。

首先是视觉优先解耦架构。当前主流实时多模态系统将语音和视觉融合进一个大模型,追求“输入即理解、输出即表达”的端到端体验。JoyAI-VL-Interaction走了一条不同路线:视觉是第一驱动力,语音是可插拔的I/O。模型的自主决策核心完全由视觉触发。ASR/TTS作为外部模块负责语音转换,可以随时替换为用户自己的语音方案。

这种解耦是深思熟虑的,把“自主核心”和“可互换的外围”分开,使得部署者可以根据自己的语言、场景和偏好自由选择语音方案,而无需重建整个系统。

其次是AdaCodec预测编码,解决了长视频的算力瓶颈。一个需要持续在线观察的模型,必须面对一个残酷的现实:视频流是无限的。如果每一帧都花256个ViT token去编码,成本和延迟会随时间快速增长,几小时后系统就扛不住了。

AdaCodec借鉴视频压缩逻辑区分帧类型,画面大幅变化的关键帧使用完整256 Token编码,场景平稳的预测帧仅通过运动矢量、残差生成16个轻量化P-Token。模型算力开销跟随画面变化幅度浮动,而非随视频时长无限增长,普通硬件也能支撑全天不间断实时观测。

400万+时间对齐数据也很关键。交互能力的习得,关键是数据。JoyAI-VL-Interaction的训练数据超过400万条时间对齐的流式视频片段,覆盖主动告警与异常检测、时间对齐问答、持续计数与感知、实时解说与叙事、多轮闲聊,以及委托决策训练的六大能力家族。每一秒钟的视频都被标注了对应的动作(沉默、回应或委托),模型从这种“秒级对齐”中学会了交互的节奏感。

更有意思的是涌现能力。在购物应用导航场景中,模型能跟随用户在手机屏幕上的每一次滑动,实时引导到目标商品,但训练数据中从未包含任何App界面视频。在旅行解说场景中,模型被要求“每四秒解说一次”,它严格遵守了这个节奏,且内容扎实,但“定时动作”和“实时解说”这两种能力在训练数据中从未同时出现。模型在推理时把它们组合起来了。

评测结果引人注目:在监控预警、实时计数、实时翻译、时间感知、直播导览解说等58个真人盲评案例中,JoyAI-VL-Interaction对比豆包视频通话助手总体胜率77.6%,对比Gemini视频通话助手总体胜率87.9%。尤其监控预警场景,对两个基线均取得100%胜率。

值得注意的是,JoyAI-VL-Interaction只是一个8B规模的模型,而竞品背后是远大于它的成熟产品,从这也能看出架构范式变化的意义。

而且,此次京东开源的不仅是模型权重,更是完整的技术栈:包括模型权重、交互数据集、训练方案和完整可部署系统。这意味着开发者和研究者都可以复现模型训练过程,微调适配自己的场景,替换组件构建定制系统,二次开发新的交互应用。

京东开源的不只是一个模型,而是一套让AI活在真实世界的基础设施。

场景落地:从对话框到物理世界

技术只有走进真实场景,才有意义。JoyAI-VL-Interaction的流式交互能力,天然适配那些需要持续在场、即时判断的真实世界任务。

例如直播购物场景,用户在手机上浏览商品时,模型能实时识别屏幕上的变化,给出穿搭建议、比价信息,甚至在你犹豫不决时主动推送关键参数对比。

又如安全监控、老人看护场景。传统的监控AI是事后查录像,JoyAI-VL-Interaction是实时预警:火苗出现时即刻告警,老人摔倒时瞬间响应,不需要任何人先开口问“有没有异常”。100%的监控告警胜率,正是这个场景的结构性优势。

体育赛事解说场景也是这样,世界杯进球、犯规、换人这些关键瞬间比人类解说员的反应更快。JoyAI-VL-Interaction的实时解说能力在测试中已经展现:它能在画面变化时即刻描述正在发生的事,而非等到被问才复盘。

为什么在流式交互模型上率先突破的,是京东?

因为京东深耕零售、物流、健康、工业等实体产业二十余年,覆盖仓储、配送、门店、直播、客服、售后等真实场景,沉淀海量真实动态视觉场景数据、标准化业务流程。京东,作为“全球最大的物理世界运营中心”,为多模态AI走向真实世界提供了天然的场景土壤。

今年以来,京东在模型基建上的动作很密集:3月开源JoyAI-LLM Flash,4月开源JoyAI-Image-Edit,6月初开源长视频生成模型JoyAI-Echo,现在又开源JoyAI-VL-Interaction。从文本到图像到视频到实时交互,京东正在构建一个覆盖“生成+理解+交互”的完整模型矩阵。

京东不是在做一个孤立的AI模型,而是在为其庞大的物理世界操作系统,打造一个能够“看见并行动”的智能感知层。从仓库里的实时异常监控,到零售场景中的购物陪伴,再到物流履约中的视觉识别,这个模型与其背后的商业生态,形成了“技术-场景-数据”的正循环。

后记:从“对话”走向“在场”

管理学家克莱顿·克里斯坦森在《创新者的窘境》中提出过一个深刻洞察:颠覆性创新往往不是在现有维度上做得更好,而是在一个被忽视的新维度上建立全新价值。

JoyAI-VL-Interaction,就在于它没有在参数、精度上去和现有模型卷,而是选择了一个全新的范式:从“对话”走向“在场”,从而让一个8B模型在时间感知和主动交互上胜过了百倍于自己的大模型产品。

当然,京东的模型本身仍有拓展空间,这恰恰是其开源的要义。随着数据的积累和算法的迭代,“流式交互”有望成为下一代AI应用的标配能力。而京东选择在起步阶段就全部开源,极具战略意义。一个范式转换的早期,最需要的是让更多人参与进来。正如开源运动的先驱埃里克·雷蒙德所言:“有足够多的眼睛,就可让所有问题浮现。”把整个栈开放给社区,是在用最有效率的方式加速一个新范式的成熟。

也许不久之后,我们会发现:真正改变我们生活的AI,不是那个藏在对话框里无所不知的“智者”,而是那个默默陪在身边、懂得何时该开口的“伙伴”。

那个你下班回家疲惫不堪时,在你还没说任何话之前,就轻声说一句:“我看出来了,今天一定很辛苦吧。”

这种不需要你先问的在场感,才是AI真正走进人类生活的最后一步,而这一步,JoyAI-VL-Interaction已经迈出去了。

相关内容

热门资讯

汛期这些危险地区要远离!赶考出... 低洼路段、漫水路桥、山洪沟口…………看似平常的路段区域在暴雨侵袭后风险陡增!这些危险区域一定要远离↓...
Natural Grocers... 天然食品商(NGVC)当前存在看似低估但实际支撑不足的估值矛盾,叠加同店销售快速失速,当前投资评级为...
华大智造:拟出资5200万元与... 格隆汇6月23日|华大智造(688114.SH)公告称,公司拟与华大共赢(深圳)股权投资基金管理有限...
从销冠到“老赖”,哪吒汽车创始...   文|Hehson财经上海站 十里  6月17日,哪吒汽车的故事又翻到并不体面的一页。  天眼查信...
华勤技术、九安医疗下注姚颂新公...   文|Hehson财经上海站 十里  近亿美元天使轮砸向正行创新,姚颂第三次创业押注具身智能。  ...