不藏了!腾讯一口气发布超过10个智能体,还批量开源模型 | 最前线
创始人
2025-07-27 14:31:55
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:36氪)

作者 | 邓咏仪

编辑 | 苏建勋

以往在大模型上一直低调行事,但在AI应用上,腾讯这回终于不藏着了。

7月26日,世界人工智能大会(WAIC)在上海开幕。明显可见的是,腾讯在WAIC上,让AI智能体成为14亿用户的“数字好友”,用智能体构建起了一个“好友圈”,覆盖用户生活中的

腾讯也发布了从自研大模型到智能体的多项新品,可以说是“AI全家桶“,包括:

“现在的AI是从到短期记忆到长期记忆的演进”,腾讯云副总裁、腾讯云智能负责人、腾讯优图实验室负责人吴运声表示,在很长一段时间里面,大模型只能记住比较短的上下文,这对复杂任务是不够的。

而腾讯大力投入到智能体中,也是对技术演进路线的探索。比如多智能体协同——吴运声表示,AI技术正在从图文问答向全方位的多模态(视频、图像、音频等)交互演进,全模态的无缝的交互在以后是不要的。而如果有不同的智能体负责不同的专业,去让各种各样智能体做协同,才能去完成更加复杂的任务。

△来源:腾讯

2023年,腾讯云刚刚发布混元大模型家族时,讲的还是“行业大模型”的故事——从金融、政务、运营商等10大行业,主打“行业大模型”的路线,一口气抛出超过50个解决方案。

但到现在,叙事已经改变,从语言模型迅速扩展到多模态、具身智能。

这次WAIC上,腾讯也首次重点发布了具身智能相关的进展。腾讯旗下的Robotics X实验室与福田实验室,联合发布了“具身智能开放平台Tairos”。

△来源:腾讯

这是国内首个以模块化的方式提供大模型、开发工具和数据服务的具身智能软件平台,即插即用,且面向机器人行业开放,为机器人本体开发商与应用开发商补齐关键的软件能力。

模型和To B/ To C应用两手抓

在模型侧,这次腾讯正式发布的重点是混元3D世界模型 1.0,并宣布全面开源。

如果说大语言模型(LLM)的技术演进路线已经逐步明晰,从扩大规模Scale up,到以强化学习(Reinforce Learning)为主的下半场;那么多模态的发展阶段还在早期,无论是技术选型、高质量数据、模型工程都有多项难点。

多模态则是今年各家比拼的重点,而世界模型也是多模态的一个重要分支,在2024年12月才兴起。

简单来说,腾讯混元3D世界模型1.0融合了全景视觉生成与分层3D重建技术,同时支持文字和图片输入,实现了高质量、风格多样的可漫游3D场景生成。

△来源:腾讯

过去,3D建模和渲染是个巨大的工程,需要专业建模团队数周才能搭建。现在,只需一句文字或一张图片,几分钟内即可生成。

谈及世界模型的训练难点,数据是其中一个。腾讯混元3D负责人郭春超在接受包括36氪等媒体采访时表示,目前3D资产主要依赖于艺术家或建模师的手工制作,因此其数量仅为几千万级,与百亿、千亿级的图片数量相比,存在数量级上的差距,这种获取难度较大的情况是客观存在的。

对于未来的发展重点,郭春超表示,混元世界模型的目标有两方面:一是提升3D资产生成的质量,使其达到更高的商用水平。目前,3D资产生成已达到中等水平,但与顶尖水平仍有差距。通过提高生成质量和泛化性,他们希望能更好地满足游戏、自动驾驶、XR、动漫及影视等行业的需求,降低成本并缩短周期;

二则是改进场景生成和交互模型,构建更完整、真实模拟物理规律的世界模型,今年重点开展,在明年达到更高成熟度。

今年年初,DeepSeek R1的经验已经证明,在崭新的技术领域,抢占技术话语权,并且做出令人尊敬的工作,能够获得巨大的市场回报。

在那之后,各家都纷纷加快了开源步伐。事实上,除本次发布即开源的混元 3D 世界模型 1.0,混元还将在月底开源一系列小尺寸模型,包含0.5B、1.8B、4B、7B混合推理模型,更轻量、好部署。

腾讯由于游戏、社交等内容领域的积累,在多模态的探索上,已经是国内第一梯队的选手。现在,腾讯已经对外提供接近商业模型性能的开源基座,方便社区基于业务和使用场景定制。

据腾讯发布的公开数据,如今腾讯的图像、视频衍生模型数量分别达到1400和1600个,混元3D系列模型社区下载量超过230万,已成为全球最受欢迎的3D开源模型。

除了世界模型之外,腾讯混元还披露了包括端侧混合推理语言模型、多模态理解模型、游戏视觉模型等在内的一系列开源计划。

比如,即将开源的混元-large-vision,就是在LMArena Vision榜单拿下国内第一的多模态理解模型;而专为游戏场景优化的、交互式游戏视频生成框架“混元GameCraft”,也会在近期对外开源。

落地,还是落地

在大模型的战略上,腾讯一而贯之的风格是务实,这次的WAIC上,腾讯的主题也是“让‘好用的AI’成为普惠生产力”。

腾讯已经将Agent的能力,嵌入到腾讯多个To B及To C应用中,覆盖生活、工作、学习、娱乐等场景。

在学习场景,QQ浏览器QBot提供AI搜索、AI浏览、AI办公、AI学习、AI写作等功能;ima AI工作台可以辅助完成日常学习和工作任务,并长期沉淀为个人的智能化知识库,也支持加入别人的共享知识库进行精准问答。

又比如,旅游规划Agent。它可以根据参观者需求,一键生成旅行攻略,还可随时对生成的攻略进行个性化编辑。同时通过内置小程序直接实现无缝下单,真正实现一次输入,多项指令一步到位。

△来源:腾讯

相关内容

热门资讯

60年前的巴菲特,是如何看财报... 作者:年报其语从巴菲特早年分享的财报阅读中,可以明显看到公司账面价值对购入价格的影响——买入低估的公...
“灵巧手”融资超30亿元 具身...   “如果把灵巧手比作人类手臂的2.0版,那它现在差不多刚上初中——发育程度大概50%,能写字、能抓...
同洲电子:上半年净利2.03亿... 来源:上海证券报·中国证券网上证报中国证券网讯(记者 骆民)同洲电子披露半年报。公司2025年上半年...
9小时到巴黎!乌鲁木齐物流开挂... 7月27日,经乌鲁木齐天山机场海关验放,一架满载57吨跨境电商货物的全货机从乌鲁木齐天山国际机场起飞...
国家统计局:汽车行业利润增长9... 7月27日,国家统计局发布了6月份工业企业利润数据。数据显示,1月至6月份,全国规模以上工业企业实现...