爬取 2 萬多張 Flickr 圖片,莫納什大學復現(xiàn) 10 年間日本櫻花開放的時空特征
內(nèi)容一覽:近年來,全球氣候變化形勢嚴峻,由此引發(fā)的蝴蝶效應,正深刻地影響著人類和大自然。在這一背景下,收集數(shù)百甚至數(shù)千公里范圍內(nèi)開花模式的數(shù)據(jù),了解氣候變化如何對開花植物產(chǎn)生影響,成為近年來生態(tài)研究的重要課題之一。但傳統(tǒng)的方法通常需要耗費大量經(jīng)費,且需要較長的時間進行采樣調(diào)查,后勤保障工作也面臨著重重困難。而近期發(fā)布在《Flora》期刊上的研究,不僅克服了這些問題,同時還揭示出前所未有的細節(jié)。
關鍵詞:時空分析 智慧生態(tài)學 SNS 數(shù)據(jù)
櫻花作為日本的國花,在大和文化中有著重要的地位。賞花(Hanami,花見),作為極具特色的民間習俗,已有了數(shù)百年的歷史。然而日本縱跨緯度約 20 度,全國可分為 6 個氣候區(qū),各地氣候差異明顯,因此櫻花綻放的時間也各有不同。每值櫻花季節(jié),日本的旅游網(wǎng)站也會詳細展示各地開花情況,供游客安排賞花時間。近年來,受到氣候變化的影響,日本櫻花的開放時間也在不斷提前。
為了探究日本櫻花的開花模式,理解氣候變化對物候?qū)W的影響,澳大利亞莫納什大學的研究團隊,利用 Python API 與計算機視覺 API,通過社交網(wǎng)站 (SNS) 數(shù)據(jù)來監(jiān)測日本的櫻花開放情況,并對實驗結(jié)果與現(xiàn)實情況進行了對比驗證。目前該研究已發(fā)表在《Flora》期刊,標題為「The spatiotemporal signature of cherry blossom flowering across Japan revealed via analysis of social network site images」。
該研究成果已發(fā)表于《Flora》期刊
論文地址:https://www.sciencedirect.com/science/article/abs/pii/S0367253023001019
實驗過程:數(shù)據(jù)集的爬取、過濾及分析
數(shù)據(jù)集
本次實驗收集櫻花開放數(shù)據(jù)的過程可以分為兩個步驟:
1. 從社交網(wǎng)站提取圖片數(shù)據(jù),包括幾個不同的連續(xù)階段
2. 利用計算機視覺 API 及人工核驗的方法,對數(shù)據(jù)進行相關性過濾
考慮到 API 需要同時對時間、空間、文本進行過濾,研究人員選擇了 Flickr 作為數(shù)據(jù)源。首先,使用 Python API 客戶端,通過搜索關鍵詞「cherry blossom」,在 Flickr 上收集帶有地理坐標的相關圖片。
其次,設置 Bounding Box 為 31.186°N-46.178°N, 129.173°E-145.859°E,以確保圖片是在日本拍攝。時間范圍設定為 2008 年- 2018 年,以排除 COVID-19 導致的全球旅游業(yè)下降對數(shù)據(jù)的影響。
然后,研究人員借助從 gadm.org 獲取的日本地理邊界進行遮罩處理,從而過濾這些數(shù)據(jù),最終獲得 80,915 張圖片。
2008 年 1 月 1 日至 2018 年 12 月 31 日
Flickr 上搜索定位在日本的「cherry blossom」圖片
1、2 月份(藍色)表示春季來臨前的櫻花初放;
3-5 月份(綠色)表示記錄春季主要櫻花盛開期的攝影數(shù)據(jù)集中度;
10-12 月份(粉色)則表明了在秋季尤其 11 月達到高峰的有趣現(xiàn)象。
盡管 Flickr 的圖片通過搜索關鍵詞「cherry blossom」進行了限制,但 SNS 內(nèi)容仍然可能會與搜索詞錯誤關聯(lián),因此需要驗證。
對此,研究人員將所有圖片提交至 Google Cloud Vision AI,該 API 可以根據(jù)每張圖像的視覺內(nèi)容,為其生成了描述性文本標簽,從而對單個數(shù)據(jù)點相關性,自動進行 double-check。
Google Cloud Vision AI 使用預先訓練好的機器學習模型,在預定義類別中為圖像分配標簽。此外,研究人員還對樣本數(shù)據(jù)進行了額外的手動核查,如下表所示:
表 1:Tokyo-filtered 數(shù)據(jù)集中,各階段的圖像數(shù)據(jù)
B 列:在 Flickr 搜索「cherry blossom」返回 28,875 張圖片,這些圖片地理坐標都位于東京地區(qū)的行政區(qū)域內(nèi)
C 列:計算機視覺 API 為此數(shù)據(jù)集返回的文本標簽及其相對頻率。從文本標簽過濾器返回的圖像中,有 21,908 張被計算機視覺 API 標記為「cherry blossom」,但由于部分圖像也被標記為「autumn」或「maple tree」,因此被剔除后,最終得到 21,633 張圖像
D 列:結(jié)果圖像隨機選出用于人工檢查的樣本
E 列:經(jīng)人工檢查確認為櫻花的圖像數(shù)量
F 列:每月自動處理方法(計算機視覺和標簽分析)的預估精度,計算方法為 E/D
G 列:利用該精度,計算 2、3、4 月總共拍攝到的櫻花圖片數(shù)量,計算方法為 C*F
評估方法
為了估計櫻花的盛開日期,研究人員為數(shù)據(jù)集中的所有圖像生成了以天為單位的時間序列,然后用 7-day width 的三角移動平均指標 (triangular rolling average) 進行處理,中心點賦 unity weight,其兩側(cè)緊鄰的點賦 0.75 的權重,接下來最接近的點分別賦 0.5 和 0.25 的權重,以此來平整由周末(休閑時間,攝影活動明顯增加)和工作日賞花人數(shù)不同而帶來的拍攝行為 (Photographic activity) 波動。
得出的圖表中所顯示的拍攝行為波峰,被確定為是櫻花盛開的全盛期(mankai)。
對比驗證:預測結(jié)果與實際數(shù)據(jù)一致
日本對櫻花盛開現(xiàn)象的記錄最早可追溯到公元 812 年,自 1953 年起開始有了官方正式的觀測記錄。為了驗證團隊的分析方法,實驗團隊選擇了東京和京都兩座熱門賞花城市的數(shù)據(jù),并與日本氣象公司 (JMC)、日本國家旅游組織 (JNTO) 每年公布的櫻花全面盛開日期進行對比,計算出實驗所得峰值日與官方公布日期之間的誤差。
通過實驗,研究團隊得出了日本全國櫻花開放的可視化時空數(shù)據(jù),1 月下旬 (wks 3-4) 至 5 月下旬 (wks 3-4),櫻花開放首先從南部氣候溫暖的地區(qū)逐漸向北方推進,最后由南向北逐漸退縮。如圖所示:
圖 2: 2008-2018 年日本櫻花拍攝地點
每張圖的周期對應兩周
A-C:櫻花圖片出現(xiàn)在日本南部較溫暖的地區(qū),圖片高度集中出現(xiàn)在本州島的東京與京都的城市中心
D-F:櫻花圖片增加,開始向本州島北部延伸
G-I:櫻花位置向北擴展,出現(xiàn)在北海道札幌,東京和京都拍攝行為依然活躍,北海道和本州島北部,櫻花拍攝行為更加集中。最后,全國范圍內(nèi)的櫻花照片逐漸減少,由南到北退去。
實驗團隊將經(jīng)過處理的東京與京都地區(qū)櫻花活動攝影日時間序列的峰值,與 JMC/JNTO 所公布的日期進行了比較驗證。結(jié)果顯示東京地區(qū)的均方根誤差為 3.21 日,京都地區(qū)為 3.32 日。如下圖:
圖 3:東京地區(qū)二者評估的日期對比
左欄:通過本實驗方法所估計的歷年東京櫻花全盛日期
中欄:JNTO 歷年報道的東京櫻花全盛日期
右欄:誤差,即二者相差天數(shù)
圖 4:京都地區(qū)二者評估的日期對比
左欄:通過本實驗方法所估計的歷年京都櫻花全盛日期
中欄:JNTO 歷年報道的京都櫻花全盛日期
右欄:誤差,即二者相差天數(shù)
在實驗團隊的數(shù)據(jù)中,還揭示出了櫻花在秋季開放的現(xiàn)象。這在 JNTO 所公布的數(shù)據(jù)中并沒有正式指出,體現(xiàn)出了 SNS 數(shù)據(jù)有能力解析小概率事件,揭示異常的物候?qū)W現(xiàn)象,如非季節(jié)性開放時間,這對于評估一年四季甚至意外情況下可供獲取的花粉花蜜等芳香資源極其重要。
SNS 數(shù)據(jù):為生態(tài)研究提供新洞見
世界氣象組織今年 4 月發(fā)布的一篇文章顯示,2022 年的全球平均溫度比 1850-1900 年的平均值高出了 1.15℃,人類對氣候變化的感知較為遲滯,植物則格外敏感。在全球氣候變暖的影響下,不僅是日本櫻花,我國多地的開花植物也受到了影響。
根據(jù)武漢大學櫻花觀測數(shù)據(jù),從上世紀 60 年代開始,武漢大學櫻花的始花期明顯提前,2000 年之后更是不斷突破記錄,一度由 3 月下旬提前至 2 月下旬。
20 世紀 90 年代前,山東菏澤的牡丹開花時間主要集中在 4 月下旬,2010 年前后提前到 4 月中旬,近幾年更是在 4 月上旬便可觀測到花開。
油菜開花的時間也同樣有了顯著提前的趨勢,江西婺源油菜花今年 2 月 22 日就見花了,3 月 13 日進入開花盛期,而在 30 年前,油菜花開花時間一般在 3 月中旬。
Kepios 發(fā)布的一份報告顯示,截止 2023 年 4 月,全球社交媒體用戶數(shù)量達到 48 億,占全球總?cè)丝诘?59.9%,平均每人每天花費 2 小時 24 分鐘使用社交媒體應用,產(chǎn)生海量社交網(wǎng)絡數(shù)據(jù),有望為生態(tài)研究提供新洞見。
作者在本論文中提出的 SNS 分析技術,可以填補公開數(shù)據(jù)中缺失的部分,幫助科研人員理解氣候變化對于開花植物產(chǎn)生的不同程度的影響,對理解蜜蜂、昆蟲等重要傳粉者的行為具有積極意義。
參考文章:[1]https://www.sciencedirect.com/science/article/abs/pii/S0168192320303117[2]https://link.springer.com/chapter/10.1007/978-4-431-66899-2_8[3]http://sh.cma.gov.cn/sh/qxkp/qhbh/zhykp/202304/t20230425_5464832.html[4]https://datareportal.com/social-media-users
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。