大模型基准测试ITU国际标准发布
创始人
2025-04-15 13:05:34

转自:中国质量报

本报讯 (记者何 可)记者从中国信息通信研究院(以下简称“中国信通院”)获悉,近日,国际电信联盟电信标准分局(ITU-T)正式发布基础模型的评估标准:基准测试(ITU—T F.748.44)。该标准由中国信通院牵头制定,旨在推动大模型基准测试体系架构形成国际共识,为大模型技术提供方和应用方提供高质量的能力评估依据,引导大模型技术及产业健康有序发展。

近年来,如何客观、全面地衡量大模型能力并且充分挖掘大模型潜在缺陷得到产学研各界的广泛关注。模型基准测试通过设计合理的测试任务和评价数据集来客观、公正、量化地评估模型的性能,是目前产业界和学术界最为认可的模型能力评估方法。当前已有数百个基准测试方法和数据集用于衡量大模型的能力。但当前产学研各界对大基础模型基准测试的体系、指标、数据集、方法、平台工具等仍未达成一致,缺乏统一的标准,导致大模型评测的结果公正性受到质疑。为进一步推动大模型基准测评的技术发展与实际应用,充分释放基准测试在人工智能领域的价值,中国信通院联合相关单位开展标准的编制工作。

本次发布的国际标准基于当前产学研界500余项基准测试系统性研究,一方面确立了大模型基准测试的4项核心要素,包括测试维度(测试场景、测试能力、测试任务和测试指标)、测试数据集、测试方法和测试工具。另一方面,针对通用场景的基础模型,提供了标准化的测试用例和流程范例,以支持企业规范开展大模型能力评估。

据介绍,中国信通院人工智能研究所于2023年开始布局大模型基准测试研究,并于2023年底发布“方升”大模型基准测试体系,推出自适应动态测试方法,积累600万条数据集,构建测试工具,支撑整个大模型测试过程的自动化实施。自2024年以来,参照已发布的ITU大模型基准测试国际标准,该所对国内外标杆大模型以两个月为周期开展持续监测工作,包括上百个测试模型,目前已发布大语言通用能力、推理能力、代码能力,多模态理解能力、文生图能力、文生视频能力等多个轮次的评测结果。此次发布的国际标准是大模型测试领域的重要标准化成果,对推动技术创新和发展、引领行业发展趋势、促进国际合作与交流等方面具有重要意义。

标准发布

相关内容

热门资讯

百济神州Q1总收入15亿美元同... 中访网数据  百济神州公布2026年第一季度未经审计业绩:全球总收入15.13亿美元,同比增长35%...
光模块的下一个或是先进封装【5... (来源:戴清策略思考)戴清观市邀请函64期 | 策略对话电子:光模块的下一个或是先进封装——————...
上海龙旗科技拟斥资2.5亿至5... 上海龙旗科技股份有限公司(以下简称“龙旗科技”)于2026年5月7日发布回购报告书,宣布拟以集中竞价...
一线调研|专属保险护航人形机器...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! (来源:每日经济新闻...
变压器行业一季报“冷热不均”:... 每经记者|张宝莲    每经编辑|张益铭     2026年第一季度,在“十五五”...