谷歌推出基准测试检验AI是否“靠谱”:Gemini 3 Pro准确率仅69%
创始人
2025-12-13 16:29:03

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:IT之家)

IT之家 12 月 13 日消息,据《商业内幕》今日报道,谷歌 DeepMind 本周发布了 FACTS 基准测试,用来检验 AI 在事实准确性方面到底靠不靠谱。

这一测试从四个维度评估模型能力,包括是否能凭自身知识准确回答事实问题、能否正确使用网络搜索、是否能在长文档中扎实引用信息,以及对图像内容的理解水平。在参测模型中,谷歌的 Gemini 3 Pro 表现最好,准确率为 69%,其他主流模型则明显落后。

这一成绩对企业同样是个警钟。虽然 AI 在生成速度和语言流畅度上优势明显,但在事实可靠性方面仍然远低于人类标准,特别是在需要专业细分知识、复杂推理或严格基于原始材料的场景中

在金融、医疗和法律等高风险行业,即便细小的事实错误,也可能放大成严重后果。报道以《商业内幕》员工梅莉亚・拉塞尔为例,其本周梳理了律师事务所如何应对 AI 逐渐被当作法律事实来源的现实,结果并不乐观。她提到,有律师事务所的员工使用 ChatGPT 起草法律文件,结果文件中充斥虚假判例,最终律所直接解雇了该员工。

报道指出,谷歌希望通过明确模型出错的位置和方式,加快 AI 的改进速度。但眼下可以得出的结论非常清楚,AI 确实在进步,然而仍有大约三分之一的时间会犯错

参考

相关内容

热门资讯

中信建投:疫苗行业2026年投... 中信建投发布研报称,疫苗行业建议关注产品销售改善及创新管线进展。部分产品销售成绩较好,放量趋势有望延...
六扇门曹懿恩身世是曹渊的女儿 ... 《六扇门》孙耀琦饰演的曹懿恩不仅有着大家闺秀端庄雅致的容颜,更有着抚琴善舞的优秀技能,从曝光的海报中...
电影使徒行者古天乐张家辉吴镇宇... 《使徒行者》贯穿始终的卧底元素,当属最大看点。在剧版故事中,一连出现了5个卧底,并且全部被删除了卧底...
doctors第三集预告惠静被... 韩剧《doctors》已经更新到第二集,在第一集中朴信惠饰演的惠静徒手与黑帮打斗的场面这身手简直攻我...
六扇门赵无极结局是好人吗 东厂... 《六扇门》电视剧播出后备受好评,剧情不但非常紧凑还很精彩,接下来将会有连环杀人案而引出陈年宫廷旧案的...