斯坦福团队开发AI数据提取框架,为能源领域数据获取难题提供方案
创始人
2025-05-24 22:46:11
0

温室气体排放的准确评估与减排是能源领域的重大挑战,但石油和天然气行业的关键数据通常分散在昂贵的商业数据库中,其存在数据碎片化、杂乱且难以获取的问题。此外,该领域的官方数据更新相对滞后,传统人工提取方法效率低下且容易出错。

针对上述问题,美国斯坦福大学博士生陈震林及其所在课题组基于大语言模型开发了一种创新的框架。

该技术利用大模型(GPT-4 和 GPT-4o)卓越的文本理解能力(远超传统文字识别技术),能够从石油天然气领域的公开文献(包括学术期刊论文和新闻报道等多元数据格式)中高效提取关键数据。

这一框架展现出两大核心优势:

一是经济性显著提升,通过优化 GPT-4o 的应用,使单数据点提取成本降低达 10 倍(0.04 美元);

二是效率高,在测试数据集上实现了 83.74% 的准确率与 78.16% 的 F1 分数,证明了其在在内的多源信息中的适应性与可靠性。

据介绍,这是斯坦福团队首例在石油天然气领域的应用。该工具不仅解决了传统数据获取的难题,更能为温室气体排放的精准评估和全生命周期分析提供可靠支撑,最终服务于科学政策制定和环境管理决策的优化。

图丨陈震林(来源:陈震林)

日前,相关论文以《通过大语言模型数据提取推进油气排放评估》(Advancing oil and gas emissions assessment through large language model data extraction)为题发表在Energy and AI[1]。斯坦福大学博士生陈震林担任第一作者兼通讯作者。

图丨相关论文(来源:Energy and AI)

该框架的创新之处在于利用 GPT-4 和 GPT-4o 等大模型,通过迭代优化提示词(prompt engineering)实现油气行业关键数据的高效提取。

为验证方法的有效性,该课题组首先构建了一个包含 108 份文档的专业数据集,涵盖气油比、水油比等 51 个核心参数,并采用领域专家人工标注的方式建立基准数据以提升模型准确率。

(来源:Energy and AI)

陈震林对 DeepTech 进一步解释道:“我们整合了领域专业知识与数值计算方法,包括物理方程和热力学方程的运用。然后,将专家计算结果与大模型输出进行多轮比对和迭代优化。”

随后,研究人员进一步进行微调,分析每篇文章在数据库中提取出错以及与人工标注结果不符的原因。

细致的误差分析结果显示,数据偏差可能来自两个方面:一方面,人工标注本身存在误差,在某些情况下大模型的判断反而更准确;另一方面,模型在单位换算或数值处理时会出现混淆。

针对这些问题,研究人员对其进行更多的训练和校正,使训练后的准确率从初始的 63.6% 显著提升到了 83.74%(如下表)。

表丨提示迭代训练结果(来源:Energy and AI)

从文档处理效率方面来看,使用新方法从 32 篇文档中提取大量数据仅需 61.41 分钟,处理一个文档平均仅需 7.09 秒,较手动方法实现了显著提升。

值得注意的是,研究还揭示了文本类型对提取效率的影响——由于字段结构更简单、内容更直白,新闻类文章的提取速度明显优于技术文献。

陈震林指出,研究过程中的关键挑战在于开发最优的零样本学习方法,这需要通过对提示策略的持续迭代来寻找最佳解决方案。

(来源:Energy and AI)

该课题组不仅建立了一套系统的提示优化方法论,更探索出充分发挥大模型潜力的技术路径,为能源领域数据提取提供了可复用的研究范式。

需要了解的是,该框架的应用范围不仅限于能源行业的上游领域,其强大的适应性使其同样适用于中游和下游环节的数据提取任务。例如,在发电领域,该技术可高效处理能源监管机构发布的年度发电站报告,以及各国政府定期发布的能源统计报告。

这些报告数据来源多样,既包含传统油气领域信息,也涵盖下游发电产业(如数据中心运营数据)和各类结构化表格数据。

对此,陈震林特别强调:“我们致力于开发具备迁移学习能力的框架体系,使其能够通过'举一反三'的机制,在不同应用场景中创造新的价值。”

(来源:Energy and AI)

在未来的研究阶段,研究人员计划继续优化准确率和架构。陈震林表示:“我们当初在做这项研究时只能依赖 GPT,但现在随着大模型的不断迭代和发展,可以让包括 DeepSeek 在内的多个模型混合共同阅读文献并交叉验证,从而进一步提升模型的可靠性。”

目前,该团队的龙文男博士已完成一项关于全球液化天然气碳排放测算的深入研究,系统追踪了从上游开采到下游应用的完整供应链碳足迹,相关论文已进入投稿阶段。

此外,研究人员还计划基于错误分析机制,更深入地揭示大模型本身在某些方面理解错误率较高的原因。“我们将通过大规模错误样本分析,精确识别模型的理解盲区和易错点,这些发现将直接指导后续的模型优化。”陈震林说。

在应用层面,该课题组在本次研究中已完成了上游环节的定性分析,接下来将重点拓展至中游和下游的全面评估。“我们期待这项研究能成为 AI 与能源领域深度结合的重要工作,为全球气候政策的科学制定提供关键数据支撑。”陈震林说。

参考资料:

1.Zhenlin Chen et al. Advancing oil and gas emissions assessment through large language model data extraction.Energy and AI(2025). https://doi.org/10.1016/j.egyai.2025.100481

运营/排版:何晨龙

相关内容

热门资讯

梁靖崑失守,王楚钦能否挡住状态... 转自:上观新闻北京时间5月25日凌晨,2025年多哈世界乒乓球锦标赛男单半决赛结束一场惊心动魄的对决...
诺沃亚宣誓就任厄瓜多尔总统 转自:财联社【诺沃亚宣誓就任厄瓜多尔总统】财联社5月25日电,当地时间5月24日,诺沃亚在厄瓜多尔首...
一场城市夜跑,激发这个中心城区... 转自:上观新闻这个周末,2025年上海城市业余联赛“科技京城杯”黄浦区第十届楼宇运动会开幕式暨星光夜...
研究显示美对欧关税加码可能导致... △当地时间5月23日,特朗普威胁将对欧盟商品征收巨额关税后,德国主要股指DAX大幅下跌美国总统特朗普...
凭什么? 湖南“宜居宜业”两手...     职业导师为求职者提供就业指导。  “来湖南工作3年了,享受到租房补贴政策。不仅宜居,就业环境...
茅台1935首次举办封坛大典 ... 转自:扬子晚报端午前夕,夏初透雨过后赤水河谷清凉畅爽,两侧青山苍翠,茅台酒厂内酒香四溢。5月24日,...
李强同印尼总统普拉博沃共同出席... 当地时间5月24日晚,国务院总理李强在雅加达同印度尼西亚总统普拉博沃共同出席中国-印尼工商界晚宴并致...
文化中国行·国宝画重点|江河“... 它是夏商王朝设立在长江流域的统治中心开启了古代中国的中央-地方国家治理模式它为长江流域“激活”了青铜...
波音2起空难致346人死亡被免... #波音将为空难者再支付4.445亿美元#【#波音2起空难致346人死亡被免于起诉# 】当地时间5月2...
蔡崇信:阿里巴巴国际化并非完美... 第五届BEYOND国际科技创新博览会(BEYOND Expo 2025)于5月21日至24日举行。在...
我国铝冶炼行业将会继续“偏热”... 全球铝合作伙伴2025年05月24日 10:20重庆中国铝冶炼产业月度景气指数监测模型结果显示,4月...
宝钢全球首发四款无取向硅钢:未... 来源:不止是钢货5月22日,宝钢股份第四届无取向硅钢应用技术大会在成都举办。现场全球首发4款全新高性...
广州一超市电灯突然爆裂砸中女子... 5月23日下午,广州番禺区洛溪新城的一佳超市(吉祥楼店)的电灯突然爆裂,玻璃碎直接砸到一名路过女子的...
8000余名徒步爱好者共赴西宁... 海龙 摄邂逅绿水青山,生态美景如诗如画;感受夏都西宁,凉爽气候沁人心脾;领略城市特色,高原古城别具风...
蔡崇信:过去5年阿里经历了很多... 第五届BEYOND国际科技创新博览会(BEYOND Expo 2025)于5月21日至24日举行。在...
哈尔滨太阳岛风景区添新景迎端午 5月24日,游客在太阳岛风景区拍照留念。当日,以“民俗+文旅+消费”为核心的2025太阳岛风景名胜区...
登顶亚洲之巅!武汉女足获得首届... 来源:人民日报客户端5月24日晚,2024—2025亚足联首届女子冠军俱乐部联赛决赛在武汉体育中心打...
西宁雪豹队斩获赛季首胜 罗延京 摄本报讯(记者 金华山)5月24日,第二届“大美青海·高原足球”超级联赛第二轮西宁雪豹队与玉...
保加利亚副总理:中国和保加利亚... 转自:千龙网日前,在宁波参加第四届中国-中东欧国家博览会的保加利亚副总理阿塔纳斯·扎菲罗夫接受总台记...
加密货币投资者 John Wo... 纽约警方在曼哈顿下城逮捕了 37 岁加密货币投资者 John Woeltz 及一名 24 岁女性同伙...