準(zhǔn)確預(yù)測極端降水,哥倫比亞大學(xué)推出升級版神經(jīng)網(wǎng)絡(luò) Org-NN
論文已發(fā)表于《PNAS》
論文地址:
https://www.pnas.org/doi/10.1073/pnas.2216158120#abstract
準(zhǔn)備工作:10 天氣象數(shù)據(jù)+ 2 個神經(jīng)網(wǎng)絡(luò)
數(shù)據(jù)與處理
實(shí)驗(yàn)團(tuán)隊(duì)所用數(shù)據(jù)集是大氣模式系統(tǒng) (SAM) DYAMOND (DYnamics of the Atmospheric general circulation Modeled On Non-hydrostatic Domains) 第二階段比較項(xiàng)目中模擬的大氣環(huán)流動力學(xué)的一部分。這個項(xiàng)目對比模擬了北半球冬季的 40 天,實(shí)驗(yàn)人員將其中初始的 10 天作為模型的 spin-up,在后 30 天中隨機(jī)抽取了 10 天作為訓(xùn)練集。
研究人員選擇了合適的數(shù)據(jù),并將這些數(shù)據(jù)粗粒度 (coarse-grain) 劃分為子域,等同于或可與 GCM-size 的網(wǎng)格。
接下來,為了提供訓(xùn)練、驗(yàn)證和測試數(shù)據(jù)集,團(tuán)隊(duì)將 10 天分為 6 天、2 天、2 天,分別用于訓(xùn)練、驗(yàn)證和測試,且只保留了降水大于闕值 (0.05mm/h) 的樣本,以便只專注于降水強(qiáng)度 (intensity) 而不是降水的起因 (trigger) 。最終,樣本總數(shù)為 108 個。
神經(jīng)網(wǎng)絡(luò)架構(gòu)
在實(shí)驗(yàn)中,研究人員使用了兩個神經(jīng)網(wǎng)絡(luò):傳統(tǒng)模型 Baseline-NN(基準(zhǔn)神經(jīng)網(wǎng)絡(luò))與新提出的 Org-NN。
Baseline-NN 是一個全連接前饋神經(jīng)網(wǎng)絡(luò) (full connected feed-forward network),學(xué)習(xí)率按代進(jìn)行調(diào)整。作為傳統(tǒng)模型,Baseline-NN 只能訪問大規(guī)模變量并預(yù)測降水。
Org-NN 含有一個自編碼器,其編碼器部分包括 3 個一維卷積層和兩個全連接層。編碼器的 input 是尺寸為 32 x 32 的高分辨率 PW (可降水,precipitable water)異常 (anomalie),output 為 org 變量,org 維度是該網(wǎng)絡(luò)的超參數(shù),研究人員將其設(shè)置為了 4。****接收 org 變量并對原始的高分辨率場進(jìn)行重構(gòu),與編碼器的結(jié)構(gòu)恰好相反。Org-NN 的神經(jīng)網(wǎng)絡(luò)部分與 Baseline-NN 相似,只額外添加了組織潛在變量 (org) 作為其 input。
兩者都使用 TensorFlow 2.9 版本實(shí)現(xiàn),并使用 Sherpa 優(yōu)化庫對超參數(shù)進(jìn)行了調(diào)優(yōu)。
實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)團(tuán)隊(duì)對兩個模型進(jìn)行了預(yù)訓(xùn)練。為了評估神經(jīng)網(wǎng)絡(luò)的預(yù)測性能,科研人員選擇了 R2,這是一種常用于量化回歸模型性能的指標(biāo)。計算公式如下:
傳統(tǒng)模型 Baseline-NN
實(shí)驗(yàn)團(tuán)隊(duì)首先使用 Baseline-NN。下圖展示當(dāng)使用粗粒度的 PW、SST、qv2m 和 T2m 作為 input 時的降水可預(yù)測性。其中,qv2m 與 T2m 用于向 Baseline-NN 提供邊界層 (boundary-layer) 條件的信息。實(shí)驗(yàn)團(tuán)隊(duì)將粗粒度的 PW 分組,在每個組內(nèi)對粗粒度降水的預(yù)測值與實(shí)際值進(jìn)行平均,同時計算了落在每個分組內(nèi)的粗粒度降水值方差。
PW:可降水,precipitable water;SST:海面溫度,sea surface temperature;qv2m:近地表 2m 的比濕,near-surface specific humidity;T2m:近地表 2m 空氣濕度,surface temperature。
圖 1:PW bin 上粗粒度降水平均值
虛線:真實(shí)的降水平均值;
橘線:預(yù)測的降水平均值;
綠線:每個 PW bin 中計算出的 R2;
陰影部分:每個分組內(nèi)的方差。
與此同時,實(shí)驗(yàn)團(tuán)隊(duì)還將 Baseline-NN 所預(yù)測的降水的概率密度函數(shù)與實(shí)際降水做比較,顯示該模型無法預(yù)測降水分布的尾部 (tail) ,即無法預(yù)測極端降水的情況。
藍(lán)色部分:真實(shí)降水的概率密度函數(shù)橙色部分:根據(jù)預(yù)測所得降水的概率密度函數(shù)
研究人員還將在粗粒度上的總云量作為神經(jīng)網(wǎng)絡(luò)的 input 之一,對 Baseline-NN 進(jìn)一步測試??傇屏吭跉夂蚰P椭袨閰?shù)化變量,與降水無直接關(guān)系,所以將其作為神經(jīng)網(wǎng)絡(luò)的輸入可能會提供有關(guān)凝結(jié)水的線索,而凝結(jié)水會直接用于降水的參數(shù)化。這其實(shí)對預(yù)測改進(jìn)的作用很小,但是強(qiáng)調(diào)了平均云量并不能提供準(zhǔn)確預(yù)測降水的相關(guān)信息。此外,實(shí)驗(yàn)團(tuán)隊(duì)通過進(jìn)一步分析,證實(shí)了 CAPE 與 CIN 不能作為預(yù)測因子,且不能改善預(yù)測結(jié)果。
圖 3: 降水概率密度函數(shù)圖
藍(lán)色部分:真實(shí)降水概率密度函數(shù);
橘色部分:預(yù)測得出降水概率密度函數(shù);
a:input 為 [PW、SST、qv2m、T2m、感熱通量(sensible heat flux)、潛熱通量(latent heat flux)];b:input 為 [PW、SST、qv2m、T2m、總云量];c:input 為 [PW、SST、qv2m、T2m、CAPE、CIN]。
結(jié)論是 Baseline-NN 在準(zhǔn)確預(yù)測降水以及變異性方面能力較低。
實(shí)驗(yàn)團(tuán)隊(duì)接下來顛覆了傳統(tǒng)方法,即利用 Org-NN進(jìn)行預(yù)測。因?yàn)?Org-NN 含有一個自編碼器,它可以直接從神經(jīng)網(wǎng)絡(luò)的目標(biāo)函數(shù)通過反向傳播接受反饋。因此,自編碼器將可以被動提取改善降水預(yù)測的相關(guān)信息。
下圖顯示了以粗粒度變量和 org 作為輸入的 Org-NN 的降水預(yù)測結(jié)果。相比于 Baseline-NN,Org-NN 的進(jìn)步顯著。當(dāng)在所有數(shù)據(jù)點(diǎn)上進(jìn)行計算時,預(yù)測的 R2 增加到 0.9。對于 PW 的每一個區(qū)間,除了降水較小的區(qū)間,計算得到的 R2 值幾乎都接近 0.80。
D:PW bin 上粗粒度降水平均值;E:降水的概率密度函數(shù)示意圖;F:圖 D 中每個緯度和經(jīng)度位置在時間步長上計算得出的 R2 值。圖中的白色區(qū)域表示降水小于 0.05 毫米/小時,被排除在模型的輸入之外。除未達(dá)到降水閾值的點(diǎn)的附近區(qū)域外,Org-NN 在大部分區(qū)域的 R2 值顯著高于 0.8。
實(shí)驗(yàn)團(tuán)隊(duì)比較了 Org-NN 和高分辨率降水模型的真實(shí)降水的概率密度函數(shù),對 Org-NN 的性能進(jìn)一步量化。結(jié)果發(fā)現(xiàn),Org-NN 完全捕捉到了概率密度函數(shù),包括它分布的尾部,也就是對應(yīng)著極端降水的部分。這說明 Org-NN 能夠準(zhǔn)確預(yù)測極端降水的情況。
實(shí)驗(yàn)團(tuán)隊(duì)所得結(jié)果表明,通過將 org 納入 input,降水預(yù)測得到了顯著的改善。這表明了,在當(dāng)前的氣候模型中,亞網(wǎng)格尺度結(jié)構(gòu)可能是對流和降水參數(shù)化缺失的重要信息。
圖 6: 實(shí)驗(yàn)流程概覽
A:數(shù)據(jù)處理過程:粗粒度化高分辨率數(shù)據(jù);
B:Baseline-NN:該網(wǎng)絡(luò)接收粗尺度變量 (如 SST 和 PW) 作為 input,并預(yù)測粗尺度降水;C:Org-NN : 左圖顯示了自動編碼器,它接收高分辨率 PW 作為 input,并在通過瓶頸后對其進(jìn)行重建。右圖顯示了預(yù)測粗尺度降水的神經(jīng)網(wǎng)絡(luò)。
傳統(tǒng)氣候模型變革在即
本次實(shí)驗(yàn)的團(tuán)隊(duì)來自 Learning the Earth with Artificial Intelligence and Physics (LEAP),這是哥倫比亞大學(xué)于 2021 年啟動的 NSF 科學(xué)與技術(shù)中心,其主要研究策略就是結(jié)合物理建模與機(jī)器學(xué)習(xí),利用氣候科學(xué)、氣候模擬的專業(yè)知識與尖端的機(jī)器學(xué)習(xí)算法,改進(jìn)近期氣候預(yù)測。這對氣候科學(xué)與數(shù)據(jù)科學(xué)的發(fā)展都有所增益。
LEAP 實(shí)驗(yàn)室部分成員簡介
實(shí)驗(yàn)室官網(wǎng):https://leap.columbia.edu
目前,研究人員正在將他們的機(jī)器學(xué)習(xí)方法應(yīng)用于氣候模型中,以改進(jìn)降水強(qiáng)度和變異性的預(yù)測,并使科學(xué)家能夠在全球變暖背景下,更準(zhǔn)確地預(yù)測水循環(huán)和極端天氣模式的變化。
同時,這項(xiàng)研究還開辟了新的研究方向,例如探索降水具有記憶效應(yīng)的可能性,即大氣保留有關(guān)最近天氣條件的信息,進(jìn)而影響后續(xù)的大氣條件。這種新方法可能在降水模擬之外具有廣泛的應(yīng)用,如對冰蓋和海洋表面進(jìn)行更好的模擬。
參考文章:
[1] https://www.sohu.com/a/707903896_121286085
[2] https://leap.columbia.edu
[3]https://phys.org/news/2023-05-method-extreme-weather-events-accurately.html
[4] https://www.sohu.com/a/708559707_100058586
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。