豆包大模型日均调用量突破50万亿tokens 火山引擎深化AI时代Agent生态变革_热点

豆包大模型日均调用量突破50万亿tokens 火山引擎深化AI时代Agent生态变革

创始人

2025-12-20 04:19:06

中经记者李静上海报道

在人工智能技术飞速发展的2025年，大模型技术正从单一的生成能力向复杂的多模态Agent场景深化。

12月18日，火山引擎在2025冬季Force原动力大会上，正式发布了最新的豆包大模型1.8和音视频创作模型Seedance 1.5 pro。多个权威评测数据显示，豆包大模型在多模态理解、生成能力及Agent能力上，已跻身全球第一梯队。

另外，火山引擎还交出了一份令人瞩目的AI成绩单。据火山引擎总裁谭待介绍，截至今年12月，豆包大模型日均token使用量突破50万亿，较去年同期增长超过10倍；并且目前火山引擎已有超过100家企业客户累计token使用量超过1万亿。

谭待在接受《中国经营报》等媒体记者采访时透露：“火山引擎还会不断通过技术和产品创新，通过更高层次的封装、成本的优化，推动人工智能技术门槛持续降低，最终实现人工智能的普惠化落地。”

大模型上新：更强的多模态Agent“大脑”

字节跳动最新发布的豆包大模型1.8（Doubao-Seed-1.8）最大的技术亮点在于其针对多模态Agent场景的定向优化。

传统的语言模型更多是一个知识库，而豆包大模型1.8则被设计为一个执行器，它的工具调用能力、复杂指令遵循能力及OS Agent能力均得到增强，提升了模型在处理复杂任务时的规划与执行水平。

首先值得关注的是，豆包大模型1.8的多模态理解能力实现了较大的飞跃。豆包大模型1.8大幅提升了视觉理解的基础能力，单次视频理解帧数从640帧大幅提升至1280帧，这一技术提升使模型能够以低帧率理解超长视频，并能调用工具对关键片段进行高帧率理解，为在线教育、产品质检等场景提供强大支持。

例如，在在线教育领域，模型可以自动分析长达数小时的课程视频，生成精准的知识点总结；在工业质检领域，它可以连续监控生产线视频流，捕捉微小的缺陷瞬间。

此外，豆包大模型1.8在视频运动理解、复杂空间理解、文档OCR能力方面也有提升。

在复杂的商业场景中，单一的问答往往无法解决问题，处理复杂问题的Agent能力就显得更重要。豆包大模型1.8显著增强了工具调用能力（Tool Use）和复杂指令遵循能力、GUI Agent能力等。

这意味着模型不再被动等待指令，而是能够像一个经验丰富的项目经理一样，对复杂任务的规划、执行、流程理解能力，更适合用来开发处理复杂、多步、多分支的企业级Agent。

豆包大模型1.8还支持256K长上下文窗口，支持通过API进行上下文管理。只需通过API传参数就能灵活清理上下文，能更好地支持模型完成长程Agent任务。

此外，通过更大的图片转tokens压缩比和思考长度可调节优化，豆包大模型1.8在效果提升的同时进一步优化了成本。

这一系列模型能力的优化，使豆包大模型1.8特别适合处理企业级复杂Agent任务，在教育、客服、金融、法律、审核等场景表现出色。

在多项公开评测中，豆包大模型1.8展现出较强的竞争力。在视觉推理、通用视觉问答、空间理解及视频理解等任务中，均获得最佳或接近最佳成绩；在通用智能体测评集BrowseComp上表现全球领先；在数学与推理等基础能力维度上，整体水平已接近全球顶尖的通用模型。

对于国内大模型市场的竞争环境，谭待则认为：“目前各大模型之间最重要的不是竞争。明年大模型的市场规模能再扩大10倍，各方关注的焦点不是存量下的零和博弈，而是如何携手开拓更广阔的增长空间。”

音视频创作模型：重塑内容生产力

如果说豆包大模型1.8是“大脑”，那么Seedance 1.5 pro则是火山引擎在“手脚”层面的极致打磨。在AIGC（生成式人工智能）爆发的今天，视频生成早已不是“能不能做出来”的问题，而是“做得有多真、多细”的问题。

过往的AI视频模型，往往采用“先画后音”或“先音后画”的串行模式，导致生成的视频经常出现口型对不上、配乐与情绪脱节的尴尬。最新推出的Seedance 1.5 pro采用了创新的原生音视频联合生成架构，能够同时处理环境音、背景音乐和人声对白，并且提升了角色的口型、语调与表演节奏的拟合精度，实现了毫秒级的音画同步输出。让声音不再是画面的“附属品”，而是叙事的有机组成部分。

在对白处理上，Seedance 1.5 pro模型支持多人多语言对话，口型对齐精准，覆盖中文方言（如四川话、粤语等）、英文及小语种，极大地提升了视频内容的真实感与全球化创作潜力。

在运动细节的捕捉和人物情绪的细腻呈现上，Seedance 1.5 pro已经达到影视级的标准。无论是风吹过发梢的动态，还是演员眼神中的细微变化，模型都能精准还原，赋予了AI视频更多的感染力。

Seedance 1.5 pro还具备自发的镜头调度能力，可执行长镜头跟随、希区柯克变焦等高难度专业运镜，同时还能实现电影级的画面衔接与专业影调，大幅提升了视频的动态张力。

为进一步降低创作门槛与成本，Seedance系列即将上线“Draft样片”功能。创作者可先生成低分辨率样片进行预览，其关键要素与最终成片高度一致，真正做到“预览即所得”。字节跳动测算的数据显示，该功能可帮助创作者提升65%的整体效率，并减少60%的无效创作成本。

目前，个人用户已可在豆包、即梦AI等平台体验该模型；企业用户则可从12月23日起，通过火山引擎API接入Seedance 1.5 pro模型服务。

对于视频制作行业来说，Seedance 1.5 pro的发布，正在重新定义着视频制作行业的制作流程，更显示出AI开始向中高端影视制作后期市场渗透。

AI云原生架构支撑Agent规模化落地

随着企业Agent应用从轻量化试点向严肃生产场景渗透，谭待指出，传统的IT架构已无法满足Agent时代的需求，以模型为中心的AI云原生架构正在形成，并围绕Agent的开发与运营进行重构。

在Agent开发层面，火山引擎全面升级了企业级AI Agent平台——AgentKit。该平台覆盖了Agent从开发、部署到管控的全生命周期，该平台旨在解决企业在Agent落地中面临的身份权限管理、模型确定性及系统集成等核心挑战，为企业级Agent提供完善的底座能力。

小米集团技术委员会基础技术平台部总经理张铎分享道：“在手机业务端，双方基于AI云原生架构，推进小米服务上云，完成CPU代次升级，实现资源交付周期从一周缩短到10分钟以内。在汽车业务上，AI云原生方案帮助我们提升训练稳定性和仿真效率，使算法迭代和上车周期大幅缩短。”

在Agent运营层面，火山引擎推出了HiAgent智能体工作站。该工作站通过构建统一的企业AI任务调度中心、提供一系列开箱即用的通用智能体，以及支持个性化定制智能体应用，帮助企业实现Agent的规模化管理与应用。在2025年累计服务数百家企业，包括中国银联、招商银行、长安汽车、紫金矿业等行业头部企业。

而企业Agent目前正发生着两大关键跨越：平均一家企业投产的智能体数量从2024年的几十个增至2025年的200多个，个别企业甚至超过千个；应用场景从最初的to C娱乐场景，逐步延伸到to B的严肃生产场景，应用价值持续释放。

为降低企业使用门槛，火山引擎发布了豆包助手API和AI节省计划。豆包助手API将豆包对话、思考、搜索等核心能力通过API方式开放，让企业实现开箱即用，并且还可直接在产品中构建自定义豆包。AI节省计划是业内首个全模型参与抵扣的节省计划，基于客户每月承诺的用量规划，系统会自动匹配对应的折扣权益。该计划通过阶梯式折扣，最高能帮助企业节省47%的成本。

“通过从模型能力到基础设施的全面革新，火山引擎正在推动AI应用从单一的模型调用向复杂的Agent智能体生态演进，加速AI能力在各行各业的深度落地。”谭待说道，“今年算是Agent的元年，明年Agent肯定还会继续爆发。”

上一篇：碧水织锦绣幸福满河湖

下一篇：一年拿下逾600亿元订单龙蟠科技能否扭转颓势？

豆包大模型日均调用量突破50万亿tokens 火山引擎深化AI时代Agent生态变革

相关内容

热门资讯