低门槛、快响应,预置十余款AI工具 智能硬件开发进入“开箱即用”时代丨新经济视界
创始人
2026-01-08 16:45:13

封面新闻记者 欧阳宏宇

多模态大模型正为智能硬件设备开发带来全新交互体验。

1月8日,在深圳举行的阿里云通义智能硬件展上,多款集成了千问、万相、百聆等基础大模型的多模态交互开发套件集中展示。据介绍,这些大模型已预置了十多款生活休闲、工作效率等领域的Agent和MCP工具,不仅能听、会看,还能思考并且与物理世界交互,可应用于AI眼镜、学习机、陪伴玩具、智能机器人等硬件设备。

随着多模态大模型的发展,大模型已开始具备理解、感知以及和物理世界交互的能力,越来越多的硬件和终端设备厂商开始通过接入大模型来提升交互体验。然而,仅靠基础大模型仍无法同时满足硬件设备对低成本、低时延、功能丰富和高质量效果的需求。

据了解,多模态交互开发套件的意义就在于可为硬件企业和解决方案商提供低开发门槛、响应速度快、场景丰富的平台。比如,在芯片层面,大模型套件能适配30多款主流ARM、RISC-V和MIPS架构终端芯片平台,满足市面上绝大多数硬件设备的快速接入需求。

值得注意的是,这些套件预置十多款MCP工具和Agent,覆盖生活、工作、娱乐、教育等多个场景。例如,基于预置的出行规划Agent,用户可直接调用路线规划、旅行攻略、吃喝玩乐探索等能力。

此外,套件还接入了百炼平台生态,用户不仅可以添加其他开发者提供的MCP和Agent模板,还能通过 A2A协议兼容三方Agent,极大程度地扩展了应用的能力边界,帮助企业灵活搭建业务场景。

在赋能智能硬件方面,面向智能穿戴设备、陪伴机器人、具身智能等领域的解决方案也在现场展出。

在近期广受关注的AI眼镜领域,基于千问VL、百聆CosyVoice等模型已可一站式实现同声传译、拍照翻译、多模态备忘录、录音转写功能,有效解决交互不自然、回答准确率低的难题。面向家庭陪伴机器人场景,基于千问模型和多模态交互套件,现有解决方案不仅可实时监测异常状况,并及时告警信息推送,用户还能基于关键词查找、定位视频,与机器人进行对话交互和控制设备等。

据了解,面向未来,模型还将持续优化。比如,推出适合AI硬件交互的专有模型,全面支持全双工语音、视频、图文等交互方式,届时,端到端语音交互时延低至1秒,视频交互时延低至1.5秒。

相关内容

热门资讯

孙权为什么要砍掉关羽的头 关羽... 建安二十四年即公元219年末,曹操认为汉献帝在许昌,和关羽的驻军很近,便有了迁都避其锋芒的想法。司马...
乌托邦:人类思想意识中最美好的... 乌托邦(Utopia)本意是“没有的地方”或者“好地方”。延伸为还有理想,不可能完成的好事情,其中文...
乌托邦是怎样的一个世界?真的存... 柏拉图的乌托邦柏拉图认为,乌托邦可以有三个阶层,从上到下分别为护国者(受过严格哲学教育的统治阶层),...
乌托邦最先是谁提出来的?提出来... 如果有一天,世界上所有的人都穿同样的衣服,吃同样的饭,开一样的车,住一样的房,那会是什么样子呢?这样...
空想社会主义和乌托邦有什么联系... 在经济思想史上,空想社会主义经济思想是作为资产阶级政治经济学的对立物出现的,早期空想社会主义者是资本...