转自:新华网
今年,人工智能(AI)技术持续在大语言模型和多模态方面取得新进展。近来,全球多家科技公司推出了新模型,这些模型不仅在理解和生成能力上取得重大突破,也在实用性和效率上迈上新台阶,标志着AI正逐步从通用大模型向多模态助手和智能体演进。
美国西部时间5月22日,美国Anthropic公司推出“克劳德4”系列两款新模型:“奥普斯4”(Opus 4)与“十四行诗4”(Sonnet 4),旨在为业界提供更高标准的编程、推理和智能体应用。该公司表示,Opus 4是行业领先的编程模型,能够高效完成复杂且持续时间长的任务;而Sonnet 4在此前的3.7版本基础上显著升级,具备更强的指令理解能力与推理、编程表现。
美国西部时间5月20日,谷歌宣布推出多个“双子座2.5”系列大语言模型,整体性能和智能推理能力均较以往版本大幅提升。当日,谷歌还发布了多个多模态模型,其中包括图像生成模型Imagen 4和视频生成模型Veo 3,具备从文本等多种输入形式生成高质量视觉内容的能力;音乐生成模型Lyria 2则为音乐人提供了多模态创作工具。此外,AI电影制作工具Flow集成了先进的多模态技术,使用户通过自然语言描述就能生成高质量的视觉作品。
5月,谷歌公司还发布了全新的进化式编程智能体AlphaEvolve,该系统由谷歌的大语言模型驱动,旨在实现通用算法的发现和优化。据谷歌官方博客介绍,AlphaEvolve不仅能发现单一函数,还能演化整个代码库,并开发出复杂的算法。在对超过50个数学难题的测试中,它在约75%的案例中重新发现最优解,并在20%的案例中提出更优方案。谷歌团队认为,该智能体未来有望在材料科学、药物发现、可持续性发展等领域发挥变革性作用。
4月,美国开放人工智能研究中心(OpenAI)先后发布了GPT-4.1系列模型以及o3和o4 mini两款推理模型。据OpenAI官网介绍,GPT-4.1系列模型在编程和指令理解方面表现尤为突出,显著提升了长文本处理能力,并具备更高的性价比。而o3和o4 mini则被OpenAI称作该公司“迄今最智能的模型”。o3模型在编程、数学、科学、视觉感知等领域均实现突破,适合处理多维度复杂问题,尤其在图像、图表等视觉任务上表现突出。o3还具备严谨的分析能力和批判式思维,可被视作可靠的“思维伙伴”。o4 mini则是一款经过优化的小型模型,在数学、编程和视觉任务方面表现出色,适用于快速且成本效益高的推理。
4月,中国AI公司商汤科技宣布推出全新升级的“日日新SenseNova V6”大模型体系。据该公司官网介绍,这一大模型系统通过多模态长思维链训练、全局记忆、强化学习等技术突破,已形成领先的多模态推理能力,并突破成本边界。
随着技术快速发展,AI的能力边界不断扩大,正如谷歌旗下“深层思维”公司首席执行官德米斯·哈萨比斯所说,团队正在塑造一个更加个性化、更主动、更强大的AI,从而加快科学进展的脚步,并开创一个充满新发现和成就的新时代。