AI-DimSum粤语语料库平台正式发布
创始人
2025-12-09 16:45:49

南都讯 日前,第十届语言服务高级论坛暨2025年度国家应急语言服务团学术年会在广州大学(大学城校区)举行。粤语语料库建设与大模型评测广州市哲学社会科学重点实验室(下称“实验室”)研发的AI-DimSum粤语语料库平台在大会上正式发布。

据介绍,作为数字中文的关键领域,粤语不仅关涉粤港澳大湾区的文化共同体认同,更关涉中华文化全球传播的国际话语权,关涉全球华人与祖国情感的纽带。粤语作为汉语的一种方言,在海内外有上亿用户,但在网络世界中却属于低资源语言。岭南文化的传承要搭上人工智能的快车,亟待构建“技术为体,文化为本”的通用粤语语料库。

面向“数字中文建设”和粤港澳大湾区文化数字化需求,AI-DimSum多模态粤语语料库平台建设了语料采集子系统、语料标注子系统、大模型对接子系统、语料确权检索子系统、语料质量评估子系统、语料管理子系统以及应用商店子系统等七个子系统。通过子系统协同工作,实现从数据采集、清洗、标注、确权、存储检索,到模型接入与最终应用发布的一体化流程,为粤语语料库的构建、管理、利用与落地应用提供完整、模块化、可扩展的基础设施与运行机制。

AI-DimSum粤语语料库汇聚处理文本语料超过100万字,涵盖新闻、文学、社交媒体等领域;完成3000小时高保真语音标注及1TB以上的音视频资料,包括大模型训练专用语料集;功夫熊猫、小猪佩奇、哪吒、大圣归来、花木兰等包含粤语字幕与标注的动画影视作品;外来媳妇本地郎、溏心风暴等包含粤语字幕与标注的影视作品;超过1万句的多用途粤语生活场景音频+文字的语料;岭南文化图像素材10000张;构建了包含6669条权威词条、30000条扩展词条的粤语安全语料库;粤语大模型内容安全多模态评测题超过20万等。

据悉,AI-DimSum语料库平台是全球首个集文化忠实、安全可信及AI友好于一体的多模态、大规模、通用粤语语料库平台,其探索出的“技术为体,文化为本”的方言语料库建设路径与独特的“1+1+N”协同创新机制为方言文化的数字化保护与传承发展提供了可复制、可推广的数字化范式。

采写:南都N视频记者 孙小鹏 通讯员 广大宣

相关内容

热门资讯

五矿岭头旧改,小户型杀出重围 文/粤进深 李奕和广州黄埔长岭居板块,即将杀出一个新规盘。前不久,五矿科城·麓云台城市展厅开出。预计...
国安部披露:间谍在政府周边等区... 公共Wi-Fi,如同数字生活中的便捷桥梁,让我们能随时随地接入网络世界,处理公务、联络亲友、休闲娱乐...
一批千年古县、古镇、古村落拟入... 转自:四川发布日前四川省民政厅公示第四批省级地名保护名录拟定名单55个地名拟入选包括千年古县、千年古...
育肥猪投保后死亡,保险公司拒赔... 2024年3月,养殖户刘某为自己的700头育肥猪投保了中央财政补贴性养殖保险,支付保费2.8万元,保...
宋城演艺:拟1亿元~2亿元回购... 每经AI快讯,12月9日,宋城演艺(300144.SZ)公告称,公司计划使用自有资金以集中竞价交易方...