转自:北京日报客户端
6月23日,北京第二外国语学院发布《大语言模型翻译质量评测报告》,针对ChatGPT、DeepSeek等6个国内外语言大模型开展翻译质量测评研究。结果显示,即使是生成式人工智能,目前也不完全具备处理复杂语言的能力,使用者在使用人工智能技术时必须具有自我判断力。
报告构建了覆盖多语种、多领域的大语言模型翻译质量评测体系。 北二外集中英语、日语、俄语、法语、阿拉伯语5个语种的师生力量,面向ChatGPT、Claude、Gemini、Grok、DeepSeek和通义千问5个国内外语言大模型,从当代文学、党政文献和外事新闻3个领域开展翻译质量测评研究。评测涵盖词汇多样性、句法复杂度、篇章衔接度、语言可接受度等6项指标体系,着重关注译文的语言使用特性,可有效识别模型在词法、句法和篇章衔接方面的能力,同时考查模型对语义的理解与语言表达能力。
结果显示,6个语言大模型的整体翻译质量差别不大,但翻译特点和擅长翻译的语种都不同。例如,在词汇多样性维度方面,通义千问在中译日得分较高,但在中译英得分较低。用户通过测评报告,可以更好地选择适用的翻译大模型。评测结果还显示,即使生成式人工智能,目前也不完全具备处理复杂语言的能力,在使用人工智能技术时必须具有判断力,而培养这种判断力正是外语教育重要的育人功能之一。
报告由北二外人工智能与语言科学学院等联合发布。该院在今年4月成立,汇聚计算机、数学及语言学师资,聚焦语言科学与人工智能技术的融合创新,旨在培养语言科学为核心的文工交叉人才。
来源:北京日报客户端