AI观察|AI赋能科学发现:数据壁垒是关键痛点
创始人
2026-01-06 10:47:08

人工智能与科学研究正在深度融合,深刻塑造科学的未来。

去年11月,美国总统特朗普签署行政命令,启动全新国家计划“创世纪计划”,旨在整合美国超级计算机和独特数据资产,利用人工智能变革科学研究方式、加速科学发现。英国去年11月发布的AI for Science战略将采取15项具体行动,旨在巩固英国在人工智能推动科学突破领域的全球领导者地位。

日前,多位青年科学家在上海科学智能研究院的一场AI for Science座谈会上不约而同提到,数据壁垒是AI for Science的关键痛点之一。AI不仅需要大量数据,还需要差异化的数据。没有数据“下锅”,就难以炼出好模型。AI for Science也不应止步于科学发现,而是选择兼具产业基础、技术优势和数据积累的领域先行先试,探索从研究到应用的市场闭环。

没有数据“下锅”,就难以炼出好模型

新能源汽车已成为我国经济发展的重要引擎,锂电池是当前的主流技术。固态电池是以固体电解质替代传统液态或凝胶电解液的二次电池体系,具有高能量、高安全性优势。固态电池上车是下一代电池的突破方向之一。

上海交通大学副教授、未来电池研究中心执行主任万佳雨从事固态电解质开发,他直言,尽管当前新材料层出不穷,但在固态电池领域,真正有用的材料不过十几类,按照大类来算仅有三类。“巧妇难为无米之炊,在模型训练中,如果没有数据 ‘下锅’,就难以训出一个好模型。”

在生物领域,蛋白质是生物制造的底层材料。过去,开发一款成功的蛋白质产品高度依赖科学家经验,过程漫长且试错成本高昂,成功率偏低。由于蛋白质研发设计技术门槛高,导致蛋白质研发供给不足,优质蛋白产品国际垄断严重,尤其是我国70%的工业酶依赖进口。利用AI高效设计蛋白质,关键在于攻克蛋白质功能预测,而数据是重中之重。

“AI需要数据,不仅数据量要大,而且数据的差异化也要大。”上海交通大学特聘教授、天鹜科技首席科学家洪亮团队开发了AI蛋白质设计平台Venus,他们让大模型学习高温、高压、高酸、高碱等极端工况下的蛋白质功能,辅助设计蛋白质,并以此开发了全球首款由大模型设计且实现工业化生产的蛋白质。

“这套策略做得好,完全依赖于底层数据的规模和质量。”为了解决数据问题,洪亮团队组建了全球最大的蛋白质数据库,收集了150亿条蛋白质序列,其中67亿条私有数据中,既有来自马里亚纳海沟的深海蛋白数据,也有中国大西北的盐湖蛋白数据。

“我们在数据层面遇到的核心痛点并非数据获取难,而在于高度非标准化。”洪亮表示,各方提供的数据格式各异,缺乏统一规范。为了清洗每一条序列并标准化标注,团队为65亿条蛋白质数据打上环境标签,才将原始的“杂乱”数据转化为可用的研究数据。

协同合作打破数据壁垒,探索市场闭环

数据采集、专业的数据标注与数据共享是推进AI for Science不可或缺的关键要素。

“许多科学领域的专业数据并不公开,缺少团队投入资源,去完成那些繁琐的数据加工工作,但AI for Science的数据一定要共享。”上海科学智能研究院副院长程远介绍,上海科学智能研究院旗下星河启智科学智能开放平台的数据广场建成超4万个高质量科学数据集,数据总量达12PB。

上海科学智能研究院的经验是构建多梯度的人才体系:20多位专职数据工程师从事数据加工和批量化处理,200多位在校学生和雇佣人员专职从事数据标注,1000多位众包人员承担数据校验和初级标注。除了丰富的科学语料资源和海量数据储备,平台的数据加工工具确保数据质量和科研可用性,明晰的数据权属机制推动数据合规生产和开放共享。“我们与高校、企业合作,加工和开放了16个领域的专业数据。他们既是平台使用者,也是建设者,贡献了数据和新模型。”

去年9月,上海人工智能实验室联合合肥实验室、临港实验室等12家国家实验室成立上海科学智能战略科技力量联盟,同时吸引众多高校和科研机构加入,共同梳理联盟体系内的各学科数据,打破数据壁垒。

上海人工智能实验室青年科学家、科学智能中心负责人白磊认为,要推动AI for Science的实质进展,首先必须清晰界定AI特别是AGI(通用人工智能)在科学领域的能力表现,系统解析不同学科和科研流程对AI能力的差异化需求,摒弃“胡子眉毛一把抓”。与此同时,AI for Science在模型训练阶段投入巨大,海量数据整合与算力支撑必然要求集结更广泛的力量协同攻关,加强合作。

AI的赋能也不应止步于科学发现。上海大学材料基因组工程研究院副教授高兆和表示,AI for Science要从科学研究落地工程,实现从研究到产业的贯通,否则任何技术突破都只是昙花一现。

在洪亮看来,AI for Science的发展有其客观规律,不同学科的商业化程度、数据积累和技术能力不同,应当选择兼具产业基础、技术优势和数据积累的领域先行先试,建立以智能体为核心的科研生态,探索从研究到应用的市场闭环。AI for Science的可持续发展必然依托于强大的生态体系,要通过生态链接,有效承接技术与需求,释放AI设计能力。在这一过程中,政府的角色是引导、搭台、共建,待模式成熟后逐步有序退出。

相关内容

热门资讯

小英雄雨来读后感800字 小英...   小英雄雨来读后感800字    今年暑假,学校布置了“品味书屋,爱我中华”为主题的读书活动,我读...
规矩和爱读后感---和孩子共同...   《规矩和爱》读后感---和孩子共同成长    8年多前初为人母,我心中的喜悦无法形容。但压力也随...
小英雄雨来读后感500字 小英...   篇一:小英雄雨来读后感500字    寒假里,我无意间发现了一本以前的语文书。刚拿在手里便如获至...
王清铭散文集读后感 王清铭散文...   《王清铭散文集》读后感    作者:月色倾城    初读王清铭的散文集,是在癸已年的冬天。在一次...
小英雄雨来读后感600字 小英...   篇一:小英雄雨来读后感600字    颜志翔    我读了《小英雄雨来》这篇课文。课文写了12岁...