字节最强多模态模型登陆火山引擎!Seed1.5-VL狂揽38项SOTA
创始人
2025-05-14 14:56:41
0

机器之心报道

编辑:杨文

5 月 13 日,火山引擎在上海搞了场 FORCE LINK AI 创新巡展,一股脑发布了 5 款模型和产品,包括豆包・视频生成模型 Seedance 1.0 lite、升级后的豆包 1.5・视觉深度思考模型,以及新版豆包・音乐模型。同时,Data Agent 和 Trae 等产品也有了新进展。

其中,全场最吸睛的就是豆包 1.5・视觉深度思考模型(以下称 Seed 1.5-VL)。

相比于之前版本,Seed1.5-VL 具备更强的通用多模态理解和推理能力,不仅视觉定位和推理更快更准,还新增了视频理解、多模态智能体能力。

举个例子。仅需一张图,再来个提示词,Seed1.5-VL 就能精准识别观众、棒球、座椅、围栏等多种元素,还能正确分类并给出坐标。

视频链接:https://mp.weixin.qq.com/s/GgJVkh8IorB6MvqlxESJLw

再比如,喂它一段监控,问一句:「今天小猫干了哪些坏事?」几秒钟后,它就丢过来几段视频,「抓包」了小猫遛弯、玩球、巡视、搞破坏等各种「作案」现场。

视频链接:https://mp.weixin.qq.com/s/GgJVkh8IorB6MvqlxESJLw

尽管 Seed1.5-VL 的激活参数仅有 20B,但其性能可达到与 Gemini2.5 Pro 相当的水平,在 60 个公开评测基准中,有 38 个取得 SOTA 表现,在视频理解、视觉推理、多模态智能体能力等方面均处于第一梯队。

Seed1.5-VL 推理性能拉满,但推理成本极具优势。据其官网显示,Seed1.5-VL 推理输入价格仅为每千 tokens 0.003 元,推理输出价格为每千 tokens 0.009 元。

目前,Seed1.5-VL 已在火山引擎全面开放 API,开发者登录后选择 Doubao-1.5-thinking-vision-pro 即可快速调用其能力,构建自己的 AI 视觉助手、巡检系统、交互 Agent 或下一代智能摄像头。

https://seed.bytedance.com/tech/seed1_5_vl

https://www.volcengine.com/experience/ark?model=doubao-1-5-thinking-vision-pro-250428

一手实测:视觉定位、推理又快又准

说一千道一万,模型好不好使,还得亲自上手试。接下来,我们就奉上一手实测,检验一下 Seed1.5-VL 真实能力。

先来看看它的视觉定位和推理能力。

我们上传一张摆满各式各样牛奶的货架图片,让它找出图中有几盒黄桃味果粒酸奶优酸乳,并计算它们的价格。

这类任务看似简单,实则非常考验模型的多模态协同能力,需要它同时具备图像理解(识别包装)、文本 OCR(识别价格标签)、语义匹配(产品名称匹配)、数学推理(乘法计算)等能力。

而 Seed1.5-VL 仅用不到 10 秒,就精准识别出货架角落里的黄桃味酸奶优酸乳,还准确数清瓶数、识别单价,并进行正确的价格计算。

除了门店货架巡检的工作,我们还让它找出下图中有几只小猫在生气。

从图像像素级别的变化中提取情绪线索,这对大模型的图像理解精度、注意力机制、细粒度识别能力都是极大的挑战。Seed1.5-VL 面对一整屏表情相似的小猫脸,准确识别出 5 只在「生气」,并给出了相应坐标。

还有下面这个「找不同」测试,Seed1.5-VL 既能精确分析两张相似图片的细微差别,又能清晰描述所有不同点,比如太阳左侧飞鸟数量、沙滩球颜色等,这展示了它在视觉理解、空间关系处理和结构化输出方面的综合能力。

此外,它还可以推理复杂视觉谜题。

比如这道公务员图形推理题目,大部分人看到这些黑白方块一头雾水,但 Seed1.5-VL 仅用 10 秒就捕捉到其中的规律,通过精准识别前两行图形叠加后「去同存异」的变换逻辑,准确推导出第三行的缺失图形。

对于开发者来说,Seed1.5-VL 新增的多模态智能体能力是一大利器。它基于强大的 GUI 定位性能,可在 PC 端、手机端等不同环境中完成复杂交互任务。

比如在测试环境中,Agent 可以识别并点击「点赞」按钮,用于模拟用户行为,验证功能流程是否正常。

视频链接:https://mp.weixin.qq.com/s/GgJVkh8IorB6MvqlxESJLw

技术解读:重构视觉理解边界

作为 Seed 系列最新一代多模态模型,Seed1.5-VL 在超过 3T token 的多模态数据上完成预训练,在图像问答、图表理解、视觉推理、视频分析、GUI 智能体等多个任务上表现突出,成为推动多模态交互应用落地的重要引擎。

那么,该模型背后有哪些独门绝技?

从模型架构上来说,Seed1.5-VL 由三个核心组件构成:首先是视觉编码模块 SeedViT,模型参数为 532M,用于对图像和视频进行编码,能够处理任意长宽比的图像输入;其次是一个多层感知机(MLP)适配器,负责将视觉特征投影到多模态表征空间;最后是基于 MoE 架构的大语言模型 Seed1.5-LLM,激活参数为 20B,专注于处理融合后的多模态输入。

尽管激活参数规模远小于传统大型模型,但其表现却足以媲美甚至超越当前多项主流方法,在保证性能的同时显著降低了推理成本。

在训练方法上,Seed1.5-VL 并未从一开始就进行联合多模态学习,而是选择了在语言模型基座上进行多模态预训练,以实现灵活的消融实验和快速迭代开发。

整个预训练过程分为三个阶段:初期仅训练 MLP 适配器以初步对齐视觉和语言表征;中期解冻所有参数,在大规模图文数据中强化知识积累、视觉 grounding 和 OCR 能力;后期在更均衡的数据混合中加入视频、编程、三维理解等新领域数据,并将序列长度显著增加,以处理复杂场景和长序列依赖。

到了后训练阶段,Seed1.5-VL 引入了监督微调(SFT)与强化学习(RL)的组合策略。

SFT 训练数据集包含通用指令数据和长链式思考数据,前者用于简洁准确响应,后者用于详细分步推理。其中长链式思考数据是基于强化学习后的模型,通过拒绝采样的方式得到。

强化学习则整合了基于人类和验证器反馈的强化学习(RLHF/RLVR)及多项先进技术。采用混合奖励,区分通用与可验证提示,通用提示仅奖励最终解以激励思考探索;针对不同类型的任务采用差异化 KL 散度系数,平衡奖励利用与探索。

考虑到多模态模型在训练中的异构性挑战,Seed1.5-VL 在 Training Infrastructure 设计上也进行了大量工程创新。

模型采用多模态并行框架,针对视觉编码 / MLP 适配器和语言模型分别使用 ZeRO 数据并行与标准 4D 并行策略,充分发挥各自优势;视觉 token 的重分配采用局部贪心负载均衡算法,将计算负载合理分布在 GPU 集群中,提升吞吐效率;此外,还定制了数据加载器,优化了数据读取和分发过程。

Seed1.5-VL 以其强大的多模态理解与推理能力,正在重塑我们与视觉世界交互的方式。无论是图像定位、视觉推理还是长视频解析,Seed1.5-VL 都展示了行业领先的技术实力,也为通用视觉系统的实际应用拓宽了路径。

结语

在此次上海巡展中,火山引擎展示了其在 AI 领域的多项创新成果。从轻量级视频生成到深度视觉理解,再到音乐创作与全流程数据智能体,火山引擎正逐步构建一个完整的技术生态,不仅为企业提供了更强的技术支撑,也推动了从业务流程到智能体应用的全面落地。

这也意味着,真正的多模态智能时代,正加速走进现实。

相关内容

热门资讯

前4个月我国人民币贷款增加10... 转自:新华社新华财经北京5月14日电(记者吴雨、任军)中国人民银行14日发布的金融统计数据显示,前4...
东海证券-益丰药房-60393...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! (转自:研报虎)投资...
凯美特气:子公司光刻气产品获日... 中证智能财讯凯美特气(002549)5月14日公告,控股子公司凯美特电子特种气体公司收到日本GIGA...
旗滨集团:终止购买控股子公司旗... 人民财讯5月14日电,旗滨集团(601636)5月14日晚间公告,公司原拟通过发行股份的方式购买控股...
“总统无权随心所欲加征关税!” 2025.05.14本文字数:1176,阅读时长大约2分钟作者 | 第一财经 孙卓当地时间5月13日...
刚刚!央行重要金融数据公布 2025年4月金融统计数据报告一、广义货币增长8%4月末,广义货币(M2)余额325.17万亿元,同...
香港公共充电设施超过1.1万个... 转自:新华财经新华财经香港5月14日电(记者李柏涛)香港环境及生态局局长谢展寰14日表示,截至202...
香港人才办举办全球线上招聘会 ... 中新网香港5月14日电 香港人才服务办公室(简称“人才办”)发言人14日表示,人才办于5月7日和8日...
加班熬夜别硬扛,墨红玫瑰暖心房... 神仙姐姐的《去有风的地方》不知道让多少打工人按捺不住躁动的心直想连夜飞奔去云南然而现实是不得不困在办...
车企全,规模大,首发多!202... 青岛日报社/观海新闻5月14日讯 今天上午,2025第二十四届青岛国际车展在青岛国际会展中心启幕。本...
容许补考是对救人善举的最好褒奖... 【#容许补考是对救人善举的最好褒奖##为救同学缺考小伙交出人生最棒答卷#】“考试一次没考,还有下一次...
山西“女硕士失踪13年生2孩”... 山西晋中市“女硕士失踪13年生育两孩”案有了最新进展。5月13日,女硕士卜小花哥哥向记者介绍,该案已...
银行板块市值今日盘中突破10万...   21世纪经济报道记者 叶麦穗 广州报道 银行板块杀疯了,今日银行板块A股总市值盘中突破1...
英国男子因杀人罪被关押38年后... 新华社北京5月14日电 英国68岁男子彼得·沙利文1986年因被判犯有杀人罪入狱服刑。如今,在新证据...
重回3400点!最强赛道出炉,...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!   来源:证券市场周...
三刀带粉丝去澳洲自驾11天10... 喜马拉雅夏日出行季 —— 澳洲东海岸自驾声光之旅活动信息主办方:喜马拉雅、百车全说时间:2025 年...
默克中国回应所有发往中国的产品... 转自:财联社【默克中国回应所有发往中国的产品订单收取临时附加费:即日起取消 已向客户发出正式通知函件...
“辞旧迎新”之际,麦市将如何演... 原标题:“辞旧迎新”之际,麦市将如何演绎? 来源:南方小麦网当前小麦市场正处于“辞旧迎新”之际...
【政经说说】民企是自家人,发展... 深入了解企业实际困难,才能精准施策,让政策更接地气、更有实效,真正打通政策落实的“最后一公里”,促进...
第二十一届中国(深圳)国际文化... 转自:中华工商网第二十一届中国(深圳)国际文化产业博览交易会(以下简称“文博会”)将于5月22日至2...