NASA的地球轨道卫星群每天传输数TB的图像数据,捕捉着河流泛滥、森林与沙漠的进退、城市道路在原有植被覆盖土地上的涌现。这些信息对人类来说过于庞杂,但借助当今强大的AI模型,宏观图景和有意义的细节正在同时清晰呈现。实现这一壮举的关键是一种新的算法方法,它能将原始数据转化为丰富的结构化物理世界表征。
这些习得抽象的力量体现在新的数据驱动模型中,涵盖地下地质、地球海洋、气候、太阳以及人类历代积累的科学知识总和。
算法创新的新纪元
算法在IBM与NASA超过60年的合作中一直发挥着重要作用,从早期土星火箭的制导计算机到今天的基础模型。算法塑造了数据在不断增长规模下转化为知识的方式。但现在,由新型计算范式和抽象现实世界观测的方式驱动的算法创新新纪元正在展开,其成果可能比任何单一数据集或任务都更加持久。
IBM和NASA开创性的开源基础模型系列正是受此方法启发。通过从海量数据集中学习通用表征,这些算法基元能够编码知识并在不同任务间传递,可无限重用。NASA最近向IBM、NASA及十多所研究大学的工程师和领域专家颁发了著名的NASA集体成就奖。
"通过以真正的科学严谨性开发开放、透明的AI基础模型,我们为研究人员提供了从NASA庞大数据中提取意义的新方法,加速分析并促成突破性发现,"NASA首席科学数据官办公室AI科学倡议负责人Rahul Ramachandran说。
Prithvi模型系列的突破
合作始于Prithvi-EO-1.0的发布及其后续版本Prithvi-EO-2.0,可应用于洪水、野火和滑坡范围的绘制。随后是Prithvi WxC,首个全球天气和气候预测基础模型,以及Surya,首个太阳基础模型,可用于预测各种可能对地球造成破坏的空间天气。
IBM和NASA研究人员还开发并开源了支持软件,通过数据处理库TerraTorch以及用于评估观测数据构建AI模型的GEO-Bench-2和SuryaBench数据集,使基于这些模型的应用的微调和验证变得更容易。
自2023年Prithvi-EO-1.0首次亮相以来,该模型系列已被下载超过60万次,在超过350项研究中被引用。NASA还看到使用其协调陆地卫星和哨兵-2数据产品的人数激增,Prithvi模型正是基于该产品训练的。
在基于Transformer的Prithvi和Surya等新模型出现之前,传统机器学习模型需要人工费力地标注图像和其他记录。为模型带来新功能可能需要数周到数月时间。基础模型通过学习能够泛化到新情况的原始数据抽象表征,消除了这项工作。
NASA估计,仅Prithvi模型就通过消除科学家使用NASA档案影像的障碍并促成重要新发现,间接创造了3600万美元的经济价值。为庆祝这些模型的影响,美国地球物理联合会上月向Prithvi-EO团队颁发了开放科学认可奖。
NASA本身也将这项工作作为技术创新如何加速地球和行星科学发现的典范。上周,Prithvi团队飞往马歇尔太空飞行中心接受奖项,该奖项还表彰了INDUS背后的研究人员,INDUS是专为科学搜索定制的高效大语言模型系列。
四项关键应用展示
农作物产量预测
每年夏末,加拿大草原大片区域因开花的油菜籽植物而呈现亮黄色。这些经特殊培育的植物产生传统菜籽油的健康替代品。收获并压榨后,其种子被制成称为芥花油的植物油。
全球消费芥花油的约三分之一产自加拿大草原。曼尼托巴大学计算机科学教授Vahab Khoshdel一直在寻找改进年度收成估算的方法。通过在季节性作物生长的高分辨率图像上调优Prithvi-EO-2.0,他构建了预测地区芥花籽产量的应用。他发现其夏季中期预测比目前使用的领先计算机视觉模型准确三倍,误差率为7-8%。
"迟早每个人都会使用基础模型,"他说。"这对农民和保险公司都是双赢。如果能预测作物的好坏程度,他们在定价和制定保险政策时就能更透明。"
天气预报改进
天气预报在过去30年有显著改进,但预测降雨的准确时间和强度仍然挑战研究人员。地球大气中的微小变化——如温度、湿度或风向的变化——可能产生截然不同的结果。
科罗拉多州立大学大气科学家Simon Pfreundschuh最近在原始卫星图像上调优Prithvi-WxC,看是否通过向模型的MERRA-2训练数据添加信息能改善降雨估计。早期结果很有希望。
他们的原型应用Prithvi-WxC Precip使用微波和红外频率的传感器数据,能穿透云层并捕捉强对流驱动的降雨。研究发现,该模型能提前两到三天在正确位置预测降雨,比基线模型和最先进AI预报模型的预测时间更长。
空间AI部署
阿德莱德大学博士后Andrew Patrick Du正致力于将AI模型直接部署到地球轨道卫星上。通过蒸馏和量化,他和同事将Prithvi-EO-2.0压缩至原大小的十五分之一。他们随后在国际空间站的IMAGIN-e载荷上部署并执行该模型。演示表明,微型Prithvi-EO-2.0能像原始模型一样有效识别地貌特征。
"无论在地面还是太空运行,性能都没有下降,"他说。
碳循环监测
世界森林、植物和土壤每年共同吸收人类产生的约三分之一碳排放。弗吉尼亚理工大学助理教授Yanghui Kang与Prithvi-EO合作者研究来自通量塔的数据流,试图获得更精确的生态系统生产力估计。
Kang最近使用Prithvi-EO-2.0将通量塔数据与低分辨率卫星地貌视图结合。他们在通量塔数据子集上微调Prithvi-EO-2.0,发现其返回的生产力估计比目前使用的传统AI方法准确20%。
"Prithvi改变了我的工作方式,"Kang说。"它让我们能更快提取信息且易于使用。我们很好奇它还能做什么。"
未来展望
其他合作者的工作证实,Prithvi-EO-2.0能够绘制北极永久冻土和火星陨石坑,这些地方从未出现在其训练中。这展现了强大抽象通过编码足够广泛的模式来传递到未曾见过世界的能力。
"早期算法执行工程师手写的指令,而基础模型能从数据中学习捕捉其底层结构的表征,"IBM欧洲研究院院长、NASA合作负责人Juan Bernabé-Moreno说。
随着宇航员准备重返月球,NASA为登陆火星奠定基础,与他们同行的算法可能对解锁这些未知环境的新信息发挥关键作用。
"几十年来,IBM和NASA共同努力推进知识和探索的边界,"IBM研究院算法与应用副总裁、IBM院士Alessandro Curioni说。"算法研究一直是我们工作的核心——静静地、不懈地扩展人类的发现能力。"
Q&A
Q1:Prithvi基础模型是什么?它有哪些主要功能?
A:Prithvi是IBM和NASA合作开发的开源地球观测基础模型系列。主要包括Prithvi-EO用于洪水、野火和滑坡范围绘制,Prithvi WxC用于天气和气候预测,以及Surya用于太阳和空间天气预测。这些模型能从海量数据中学习通用表征,在不同任务间传递知识。
Q2:这些AI模型在实际应用中效果如何?
A:效果显著。在农作物产量预测方面,准确度比现有模型高3倍;在天气预报中,能提前2-3天预测降雨位置;在生态系统监测中,生产力估计准确度提升20%。自2023年发布以来,模型系列已被下载超过60万次,创造了约3600万美元的经济价值。
Q3:基础模型相比传统机器学习模型有什么优势?
A:传统机器学习模型需要人工费力标注数据,开发新功能需要数周到数月。而基础模型通过学习原始数据的抽象表征,能够泛化到新情况,消除了繁重的标注工作,大大提高了开发效率和应用灵活性。