AI助力数据驱动是否会改变NWP?(一)
AI助力数据驱动是否会改变NWP?
——ECMWF-ESA主题会议评介
§ 贾朋群 魏晓敏
2022年11月14-17日,欧洲中期天气预报中心(ECMWF)和欧空局(ESA)联合举办了第3届机器学习用于地球系统观测和预报主题研讨会。这次会期为4天的研讨会,采用以线下为主和少量线上报告的方式,包括了43个口头报告,40个墙报,内容十分丰富。
本文基于该系列会议最新材料,试图解读AI技术已经和将要怎样改变气象和地球系统预报活动,探讨这样的发展会怎样引领我们能力的提升。
1 形势和任务:凝练科学问题
系列研讨会一般围绕某个专业主题展开,会议的设计包括该领域一些主要进展的综合评述。这样的评述既有时效性,即会议举办时的最新进展或状态;还要兼顾传承性,即自前次会议以来,最突出和显著的进步有哪些。这类评述,在成熟的系列研讨会上,一般由特约的主题报告的报告人给出框架。本次会议,第一天上午的2个45分钟时长的主题报告,从AI/ML与数据同化角度和地球观测与遥感两个角度,承担这样的任务,也很好地概括了ESOP的内涵。
两个主题报告中,令人印象深刻的,是来自Sofer海洋科技公司学者Penny从数字同化的角度,阐述的技术现状和挑战,其中报告里凝练的科学问题,更是具有极高的启发性,令人在“种树”的同时,思考和想象未来“森林”的样子。
本节基于本次会议及前两次会议主题报告的相关材料,试图梳理一些科学问题的凝练、解决方向和路线等。
1)观测、再分析和模拟结果,各有局限性
以传感器发明、探空观测和气象卫星等为标志性事件的气象探测,随着观测数据体量的不断增加,孕育了包含动力模式(偏微分方程(PDE)闭合模式)、数据同化等技术,并带来现代预报业务能力的提高(图1)。然而,在这样的发展过程中,以数据同化(DA)为例,一些根本性的问题或者挑战随处可见,例如:
● 在DA输入端,考虑到观测在数值、地点和类型上的误差,以及物理约束中的不确定性(如对离散化、网格分辨率、数值解、参数化过程等可追溯表征的模拟后,在如何应用物理定律时存在的不确定性),DA本身是在不确定条件下估计动力系统的轨迹。
●在DA及预报应用整个业务链条中,日趋成熟的现代同化技术还是忽略了大量观测数据,尽管这样的忽略在DA应用于再分析时有所缓解。
● 随着模式时空分辨率的提高,数据同化的成本大大提高。
上述一些问题,是与模拟预报系统面对的对象、体量异常庞大的系统(达到O(109)量级)密切相关,而模拟系统仅仅采用可计量的方法。一些改进需要依赖AI代表的更丰富的有效方法也就不言而喻。
早在2017年,会议主题报告报告人之一的Penny博士就在一次学术会议上反复提示,他向模式研发者强调:再分析不等于观测;向观测者强调:再分析不等于模式。真正描述好这3个彼此相互联系但又有区别的变量场直接的关系,报告人给出了一个中庸,但实际上依然有不确定要素的描述(图2)。
解决上述问题的途径之一,就是用雷达或卫星观测这类对气象场的遥感观测结果,直接作为初始场输入模式系统。这样的改变,采用AI技术进行模拟,就带来了预报范式的改变(图3)
这样的转变,如果要替代目前的预报系统,还面临很多挑战:一是只有观测到的(气象要素场)量才能进行预测,观测到的过程和未观测到的过程之间的已知物理关系无法被利用;二是观测是稀疏和有噪声的,但却被视为“地表真值”,观测的不确定性无法表征;三是动力不确定性没有表征(即预报是“概率”性的而非动力预报)。
2)如果承认观测和再分析并不完美,应用AI技术如何考量
观测的误差和模式不确定性给再分析带来的局限,使得二者具有的不确定性是容易被理解的,但在这样的情况下,如果应用AI技术开展预报,首先要面对一些问题,例如:
l再分析数据用于ML训练是否足够了?
l纯粹的模拟数据集是否能更有效?
l偏差和系统误差如何处理?
l我们真的需要考虑上述问题吗?还是可以直接从观测和基本物理约束中学习?
上述递进式的问题,也是目前不断探索和实践中的智能化数值预报技术的不同切入和视角。
实际上,对于包括气象和地球系统模拟在内的地球物理Al/ML应用来说,视觉比较是不够的。目前研发中常用的RMSE,也不足以衡量AI/ML预测模型的性能。在这样的前提下,能否能为地球物理AI/ML应用找到更好的指标或是最大的挑战:我们能否开发出能够正确响应初始条件扰动的AI/ML模型?衡量这一点的最佳方法是什么?
此外,地球物理AI/ML方法需要一定程度的通用性,以应用于尚未见到的数据,但它们也必须在小尺度上保留所需的误差特征和细节。这方面的挑战是,我们如何在控制数值扩散到可接受水平的同时,推动比大尺度天气流更精细的分辨率?更进一步,下一代“再分析”产品(其主要目的可能是支持AI/ML应用程序)的需求是什么?
3)如何应用AI技术完全替代预报模式中的参数化
对上一节提出的问题的完整回答,并非是一个报告能够覆盖的,或许需要一代学者长时间的共同努力。但是,目前动力预报系统中最大不确定性来源,即参数化是否能够借助AI技术被完全替代,则较多地提到议事日程。
提出完全替代参数化的思想,最早可以追溯到20世纪末。当前,在最热门的混合模式(即动力与AI混合模拟)研究领域,借助ML开发的参数化,被标记为“隐藏变量”,其目标就是要替代传统模式中的动力参数化(图4)。
在替代模型中,需要通过投影过程,省略/平均一些高分辨率模型(CRM)变量,因为这些变量在低分辨率模型(GCM)中没有对应的变量,故这些变量成为GCM的隐藏变量。不正确的降低分辨率和投影可能会挑战混合模型预测的稳定性和预期中的技巧改进。
4)混合模式或具有可最先实现的优势:包括软件和硬件两方面
混合模式,即新一代借助AI技术的预报模式,并非推倒原来系统重建,而是将AI技术在预报系统全工作流中应用并实现模式整体的系统改进。这样的混合,随着数值预测模型的现代化,例如,软件方面使用支持差异化的新语言编写,并设计为利用GPU硬件(图5)计算等,混合模式解决方案已经开始介入业务应用层面。这时,混合模式能否保持与传统模式相比的竞争优势,无论就模式性能还是计算成本而言,就成为其发展和被认可的关键。
这时,需要面对和认知的科学问题是:从与观测结果的比较中,可以了解多少依赖于状态的(传统)模式误差?又如何区分系统观测误差和系统模式预测误差?
在计算层面,需厘清Al/ML方法可以提高对熟练的预测模型必须具有哪些属性的理解。对于Al/ML解决方案应该是什么样子,没有严格的指导方针,但未来很可能是传统模式和Al/ML模式的混合。所有未来模式都应该是软件可微分的。Al/ML的趋势和工具使这一目标更容易实现。传统的原始方程模式为“自下向上”的设计,Al/ML方法则具有更大的灵活性和对不同运动尺度的控制,可以将它们分开,允许或不允许它们之间的交互,以不同的方式约束它们,并赋予它们不同的重要性/优先级。目前AI/ML方法中基本上没有产生和发展观测、模式和动力误差估计的基本概念——这是DA为Al/ML开发提供信息的最大机会之一。数据同化低成本替代模型为以前不可行的新的数据分析方法提供了机会,例如大集成,高分辨率,非高斯/非线性分析方法等。AI/ML方法的优化框架可能能够用于为DA社区创建新的算法方法,提高天气预报社区之外的数据同化的可见性,DA社区有助于形成在Al/ML中更一般应用的新思想的发展,社区的合并是不可避免的——需要许多不同类型的专业知识来解决这些问题。
2 气象中心业务嵌入AI技术进程:研究和业务化
参加本次会议的专家,较多的学者来自气象业务部门,包括主要气象中心和企业预报研发活动项目等。因此,会议报告在很多方面,展示了最新的气象业务中,可能或已经引入AI技术并取得一定进展的发展态势。
1)NASA的“科学数据智能”理念
在AI快速走进科学领域的背景下,NASA推出的AIST(Advanced Information Systems Technology,先进信息系统技术)项目中,AI被作为重要手段应用其中(图6)。在NASA的地球科学部,各类5-10年项目框架的不同阶段,一些分目标伴随大量的数据循环分析内容,AI在其中近一半的过程中被引入,完成确认、开发和支持先进软件和信息系统的任务。
这类应用主要通过3个概念,在深层次上,体现“科学数据智慧”的理念:一是NOS(New Observing Strategies),即新观测战略,指通过智能、及时、动态和协调分布的传感器,设计和运行新观测测量和新观测系统;二是ACF(Analytic Collaborative Frameworks),即分析协同框架,指灵活的科学调查,充分利用大量不同的观测,使用先进的分析工具、可视化和计算环境,并与相关的观测系统无缝交互;三是ESDT(Earth System Digital Twins),即地球系统数字孪生,指开发综合的地球科学框架,用最先进的模型(地球系统模型和其他模型)、及时和相关的观测和分析工具得到地球数字映射,这一技术将推动实现近期和长期的科学和政策决策。
D-SHIELD诠释NOS的功能。D-SHIELD(Distributed Spacecraft with Heuristic Intelligence to Enable Logistical Decisions,具有启发式智能的分布式航天器以实现物质流决策,图7)是一种操作设计工具,用于给定的分布式空间任务(DSM)架构,规划异构有效载荷的重新定向和操作,考虑功率/有效载荷约束,同时最大限度地提高科学价值。它使用基于观测系统模拟实验(OSSE)的迭代科学观测模拟器,适用于实时规划和快速任务设计。该项目通过开发基于AI的规划和调度的DSM操作工具,为新观测战略(NOS)信任领域做出了贡献。
ACF更好地区分数据中心和分析中心。数据和分析中心是地球科学很多相关机构必有的分支机构或功能。然而,NASA的ACF理念下,二者的主要区别(图8)已经显现出来,两类关键机构之间的合作,就成为需要更好面对的。
在计算层面上,NASA利用AI技术,已经开发了多种针对不同对象的分析工具,例如,时间序列和科学模型、图像处理和数据融合、模态和信息提取等。
ESDT或让研发与应用同步。NASA在ESDT中,主要通过数字孪生技术推动应用,强调ESDT具有的对地球过去和当前状态的数字模式、对未来的预测和影响分析等三大性能(图9)。
NASA报告人还特别强调了AI在早期技术(Early-Stage Technology,EST)阶段中的特殊意义,凸显NASA作为以新理念探索为标签机构的特征。报告人从量子计算(以NASA 地球交换(NEX)Petabyte-量级数据时间序列挖掘,全球陆地模型推断和同化卫星地表通量数据的混合量子强化方法评估等2个项目为例)、智能传感器(以传感器在循环试验平台实现多功能/智能/动态地球观测项目为例)等视角,进行了解读。
2)NOAA学者提出“科学数据智能”理念
本次会议,最激动人心但又让人疑虑的报告,来自NOAA及合作公司(RTI)的报告:我们是否能完全依赖AI技术设计新的NWP数据同化系统?报告的副标题是“优势和挑战”,即AI具有这样的优势,但一些问题的解决还面临挑战。作者的结论给出满满的正能力:随着进一步的努力,以NWP为目的的完全基于AI技术的数据融合/同化具有可能性。作者补充指出,AI技术提供了广泛的新视角:效率、更高的同化率、同化新出现的数据等。
NOAA学者给出这样的结论,主要基于几个方面的考虑。首先,传统的数据同化和基于AI的数据同化在数学上具有相似性(图10)。基于AI的数据同化训练也是对比观测场和背景场,结合约束条件让损失函数最小。由此,新的完全基于AI的数据同化,可以模仿同化步骤本身,实现多变量的数据融合/同化,得到受到一定限制的一组变量的表达。
第二,完全AI方法在效率上,可望提升一个量级,从而通过同化数据大幅度增加受益。尤其是一些新的非传统、并未完全开发的环境数据参与同化。最后,基于AI的分析依然与传统数据同化的物理约束保持一致,各种物理平衡依然有效。
然而,作者也指出,虽然初步结果令人振奋,但这些结果仅仅是新方法的第一步。完全意义上的实现,需要面临的主要挑战,包括可扩展性、个别层上物理约束的实现、计算稳定性和对观测误差的明确处理等。
显然,这样的讨论今后或会愈演愈烈,但终结这样的讨论,则需要一个全新的预报系统架构,以更优秀的预报性能说服整个气象界。
(未完待续,本文推送时略有修改)
来源 | 国际气象视野
编辑 | 冯裕健
- 上一篇:没有啦
- 下一篇:罗勇教授团队利用人工智能助力北极地表气温重建 2023/3/28