上海大模型“独角兽”的研究员,为何要“硬刚”大厂论文,还获得了一片叫好?
创始人
2025-12-03 16:32:51

这几天,来自上海的大模型“独角兽”阶跃星辰的研究员杨磊,在国内外机器学习社区火了,他“硬刚”大厂一项“漏洞百出”的论文,引来数以10万计的“吃瓜群众”,更不乏行业大V为他站台。AI初创公司,进入大语言模型赛道不过一年多的程序员,这样的背景,怎么也不像是“哪吒闹海”的主人公!可恰恰是一份简单而纯粹的,对科研较真的态度,让业界看到并认可了来自模速空间的实力。

资料图:阶跃星辰亮相2025世界人工智能大会

故事的开头,其实也挺寻常。上个月初,有着多模态“卷王”之称的阶跃星辰的研究员杨磊,被同事“种草”了一篇苹果团队发布的视觉推理基准论文。这篇论文发表在公开的论文预印本平台上,同时也被苹果投向了国际表征学习大会(ICLR 2026)——这可是AI和深度学习领域的顶级学术会议之一。都被公认“卷王”了,可见平时节奏有多快。可这项研究吸引杨磊,并让他心甘情愿“加班”的,恰是它的核心,和自己近期的工作相关。苹果的论文,本意是展示其最新的AI研究进展。“外行看热闹”的话,可以理解为出了套“基准测试”——用一套统一的数据集,也就是考题,来比较不同的AI模型,看谁的表现更好。“可以理解成,它让大模型去分析,数据集里哪个地方错了,很像考试中,老师给‘步骤分’。”杨磊告诉新民晚报记者,“此前,我们也开发了专门的标注工具,产生了一批数据,并有了预研模型,很希望通过第三方平台来验证成果。”可熬了一个周末的通宵来做适配,杨磊的心情只能用俩字来形容:沮丧!“模型跑出来的点数极其之低,远低于预期。”他说,苹果团队也给出了其测试开源模型以及主流模型的榜单,杨磊所用的经过适配的模型,几乎要排名垫底了。哪里出问题了?排除了自身模型的问题后,杨磊仔细分析了论文里给出的代码,他被震惊了!照理说,这套“基准测试”的运行流程是,给个图、抛出问题、给出解答、解答里有步骤错误,模型需要准确找出这一步——也就是说,参加评测的必须是一个能输入图片的VLM(视觉—语言模型)。可,论文的开源代码里,输送的是图片的路径地址,而没有把路径解析成图片内容——这就造成模型看不到图片,只能看到题目和错误之处。杨磊向论文作者反馈了这个“低级错误”,可得到的反馈却是:这是一段“伪代码”。更令杨磊没有想到的是,在修复这处bug后,模型的点数更低了……百思不得其解下,杨磊只能花费更多时间和精力,去分析到底哪儿出了问题。再看了前20道题中,自家模型答错的题后,结果大吃一惊——里面有6道题明确属于“参考答案”错误,从“参考答案”的错误风格来看,很可能是模型自动生成的“参考答案”加上质检严重不足,导致包含大量幻觉。杨磊初步估算了一下,“参考答案”错误率可能已经来到了30%。“原本以为苹果是大厂,我们也比较信任。谁能想到自己花费了大量时间和精力,发现自己‘被坑了’,对方也很不负责。”杨磊如是说。他在GitHub(记者注:全球最常用的代码托管与协作平台)上,向论文作者反馈,指出其中的错误。六天后,作者“姗姗来迟”,简单回复后,便将反馈的问题标记为“已解决”,可实际上发布的数据并没有任何改动。由于论文也被投向了国际表征学习大会,大会的审稿意见中,没有任何一位审稿人发现“参考答案”的质量问题,也没人发现论文中的例子存在幻觉和错误。杨磊写了一份详细的公开评论,提醒大会审稿人和社区:这个数据集质量堪忧、极易误导研究方向。“我在这里评论是为了防止有兴趣的研究人员重复我经历的相同循环——看到第一个错误检测任务时的兴奋,运行它后的震惊和失望,以及追踪底层GT问题后的沮丧——从而节省每个人的时间和精力。”他这样写道。

再后来,论文撤稿了。作者“礼貌”地告诉杨磊,会积极修复这些问题,就没有然后了。

“众所周知,这几年人工智能领域特别火。每两年,投向顶级会议的论文数量几乎翻番。AI的进步,会使更多粗制滥造的工作容易‘批量生产’;加之审稿人都是‘义务劳动’,这些更不容易被发现。”杨磊解释。

杨磊的这一举动,在国内外各大机器学习社区,都引发了共鸣。他说,希望通过分享自己这次曲折的经历,能让AI社区更和谐,也让大家意识到,不要盲目信任表面包装,哪怕是来自大厂。

原标题:上海大模型“独角兽”的研究员,为何要“硬刚”大厂论文,还获得了一片叫好?

相关内容

热门资讯

直播预告|12月4日11时,山... 转自:山西发布  2025年12月4日上午11时,中共山西省委宣传部、山西省人民政府新闻办公室将举行...
ST云动:为全资子公司昆明云内... 每经AI快讯,12月3日,ST云动公告,公司为满足全资子公司昆明云内动力智能装备有限公司日常经营需要...
德国外长宣布再投入2亿美元援乌 转自:北京日报客户端当地时间12月3日,在启程前往比利时布鲁塞尔参加北约国家外交部长会议前,德国外长...
京东买药:流感用药一周销量同比... 12月3日,澎湃新闻记者获悉,京东买药秒送平台数据显示,11月24日至30日期间,流感相关用药销量环...
再次否认下令打击“贩毒船”生还... 【环球网报道 记者 张江平】美媒近日爆料“美国防长赫格塞思在美军一次打击‘贩毒船’的行动中下令杀光所...