您當前的位置:首頁 > 體育

2021數維杯B題思路

作者:由 菜小孩 發表于 體育時間:2022-03-04

本文章轉載於 @數模孵化園 此大佬日常更新各種建模比賽思路!

先看翻譯,思路見後文:

近兩年來,我國河南、陝西、湖北等地遭遇了極為罕見的強降雨天氣。與 此同時,部分北方城市遭遇歷史罕見的暴雪天氣。這些暴雨和降雪對當地人民 的生命安全和財產構成了嚴重威脅。以鄭州為例。7月18日18時至21日0時,鄭 州市普降大暴雨和特大暴雨。累計平均降水量449毫米。20日16時至17時,鄭州 站降雨量達201。9毫米,超過我國陸地小時降雨量極值。而鄭州,這座千萬人口 的城市,正經受著暴雨的考驗。這場大雨從7月17日開始斷斷續續,到20日上午, 雨勢突然開始加大。到當天下午,鄭州多個小區和道路被雨水淹沒。 鄭州市氣 象局釋出資訊稱,鄭州市年平均降雨量為640。8毫米,這三天的降雨量接近甚至 超過往年。從氣候學的角度來看,是千年一遇。河南鄭州持續強降雨,給鄭州 人民生命財產安全造成巨大損失,生產生活受到嚴重影響。截至7月23日12時, 據初步統計,全省緊急轉移安置人口395989人,農作物受災面積44209。73公頃, 直接經濟損失6550億元,暴雨引發的洪澇及次生災害已造成數百人死亡。

據有關研究人員介紹,在全球氣候變暖的背景下,我國未來降水的多少、 強度、頻率和型別都將受到直接影響。預計本世紀末降水量將增加10%左右,極 端降水發生機率明顯增加。由於我國國土面積較大,加上各類地形地貌等因素 的綜合影響,不同城市的降水特徵呈現出不同的特點。因此,建立不同潛在極 端降水事件城市的預測模型及其損失的定量分析模型勢在必行。

附件1為鄭州市附近3個氣象站近70年逐日降水觀測資料。嘗試使用數學建模來解決以下問題:

問題1:對鄭州地區降水特徵的年際變化特徵進行相關分析,篩選出降水偏多的年份。同時,對2021年鄭州洪水事件進行了具體的量化分析。

問題2:能否收集整理我國更多城市多年來的降水資料,分析這些城市的降水變 化趨勢?(需明確註明資料來源及獲取方式)

問題3:能否利用收集到的城市氣象資料進行預測分析基於不同方法預測未來可能出現極端降雨的城市,並對預測效果進行對比分析。

問題4:你認為2021年7月鄭州的強降雨和2021年10月山西的強降雨特徵一樣嗎? 造成的損失有什麼不同?

問題5:您能否提出未來極端降水條件下城市的長期建設規劃,其中對我國典型 城市的深入分析尤為必要。

思路:

這道題,可能很多小夥伴會去糾結風速、風向、氣壓等資料,本題主要圍繞降雨展開研究,後文的分析基本上是時間序列預測,然後再加上機器學習識別是否存在極端降水情況

在做題前先來看看資料

FRSHTT這列資料其實是字串,所以會給大家帶來一定干擾,比如10,其實是000010,也就是當天天氣包含了雷雨天氣,因此我們可以先增加六列

接下來是溫度,可能有小夥伴覺得奇怪,為什麼溫度這麼高,其實是華氏度F,(F-32)*5/9得到攝氏度℃

接下來我們先做的不是處理異常資料,而是想一下你們做研究需要提取那些年份的資料,第一問中我們可以用很多年份的資料,也是為了分析歷年來的氣候特徵變化,並且找出主要因素,用於後問研究中指標選取的依據。第二問開始則是進行具體的分析了,要知道近幾年的氣候變化和以前差別很大,因此對第二問來說,選擇5-7年的資料即可,年份越多,可能不利於機器學習演算法的開展

來看第一問附件中所有站點都有的比較全的資料的年份是從1984年開始,那麼之前的資料就可以取消掉了,這是從監測全面性角度考慮的。接下來還需要進一步對資料進行處理,除了2021年,其餘年份資料就算有缺失也是在360條以上,因此可不做缺失日期資料補充,就算要進行缺失值補充,也只能取天氣狀況及趨勢相近的年份來補充,天氣資料除了氣溫都不能基於資料的連續性進行補充,這是因為其餘指標每天變動很大。接下來再來看看附件資料,陣風有999。9這個資料,沒有檢測到就說明沒有陣風,這裡就改為0;雪深有很多999。9值,但是考慮鄭州市下雪天氣較少,那麼可視為無雪天,記為0;觀測站氣壓可以直接刪除;其餘指標隨存在異常值,但是數量較少,可以直接透過協同過濾、k近鄰等相關方法進行修正。

基本的指標資料已經進行了初步的處理,接下來需進一步修正資料,題目未提及其他天氣的分析,那麼其餘天氣就作為一個拓展,僅分析降雨即可,透過相關性找出和雨天、雷雨資料列最相關的幾個指標,透過邏輯迴歸中的S型曲線模型或高斯曲線模型,進行擬合,就是二分類模型,然後重新識別(這裡嚴格來說是別人沒做好,我們幫忙改正)雨天和雷雨天並修改雨天、雷雨資料列,為什麼要進行這一步操作,說實話,FRSHTT資料太亂了,感覺是人工貼的類別標籤,畢竟天氣預報不準的時候也很常見,這麼做有這麼做的道理:station1中篩選雷雨資料列有536個,其中露點大於65的佔73%,非雷雨有13282,其中露點小於60的佔78%,也就是說區分是能區分,但是中間有部分資料存在交叉,從而影響到最後系統的識別,也就是我們看到的檢測資料。

以上資料處理後,後面的問題就很方便來做了,第一問統計,先說說怎麼統計,舉一個例子,天氣報告成都有雨,但是隻是區域性地區有雨而已,也就是說題目給的鄭州市三個檢測站點,哪怕是一個站點確定有雨,那麼當天就有雨,且降雨量按檢測站點中最大的資料為準。第一問首先按年統計分析,那麼可以是年平均降雨量、年內雨天數或佔比、年內雷雨天數或佔比、年均露點等等,基於這些指標可透過聚類方法對各年天氣狀況進行分類,將降雨偏多的年份組選出,由於鄭州洪水題目也提到了7月,那麼接下來同樣對選出的這些年份按月統計出上數指標,求平均降雨量與其餘指標的相關性,從中確定主要影響因素。

第二問,收集其他城市資料,這裡注意,後文是要分析山西省,這裡必然要考慮一個以上山西受災城市的氣候,然後再找一個天氣較好的城市,用於對比,為第五問寫規劃建議提供參考(這裡一定要考慮到前後問邏輯),本問同第一問做法,歷史天氣下載網址:

https://

rp5。ru/

鄭州_

其中引數解釋如下,可能你們找的其他網站資料統計口徑不同,但不影響做題,結合上一問確定的主要因素來做就行,下表中的溼度相當於露點這一指標。

T 地面以上2米處的大氣溫度(攝氏度)

P0 氣象站水平的大氣壓(毫米汞柱)

P 平均海平面的大氣壓(毫米汞柱)

U 地面高度2米處的相對溼度(%)

Tn 在過去一段時間(不超過12小時)的最低氣溫(攝氏度)

Nh 觀察到的所有云層C1的數量,沒有云層C1時,觀察到的所有云層Cm的數量

VV 水平能見度(千米)

Sss 雪深(釐米)

DD 觀測前10分鐘內地面高度10~12米處的風向 (羅盤方位)

FF 觀測前10分鐘內地面高度10~12米處的平均風速 (米每秒)

FF10 觀測前10分鐘內地面高度10~12米處的最大陣風 (米每秒)

FF3 兩次觀測之間地面高度10~12米處的最大陣風 (米每秒)

Tx 在過去一段時間(不超過12小時)的最高氣溫(攝氏度)

H 最低雲層底部的高度(米)

RRR 降水量(毫米)

第三問,如何預測分析,在我上一份《2021年中國高校大資料挑戰賽A題思路》中改進了一個混沌多步預測演算法,大家可以嘗試去預測下指標,當然預測方法很多,對於天氣資料,始終是存在一定的週期性的,建議採用帶有周期性分析的方法進行預測。

下載連結:

https://

pan。baidu。com/s/1IR8idI

r7irHzqq_2OlTdeA

提取碼:dr56

預測指標資料後,前面也提到了二分類模型,這裡就直接對未來天氣資料進行雨天和雷雨的識別即可同第一問統計一下相關指標,就按月統計吧,將第一問分出來的降雨偏多和其餘樣本帶入機器學習訓練,然後對預測月份識別是否為強降雨。

第四問,山西可以就以太原市作為研究物件,統計出相關指標,資料可以按月維度統計,分析兩城市降雨量與其餘指標的相關性,然後對比說明,同時整理出河南和山西省相關指標(見國家資料庫,由於目前很多10月指標並沒有公佈,就找有的就行了,基本上山西公佈的10月指標均有所下降)

接下來就分析降雨量對這些經濟指標的影響,當然也可以構建一個經濟水平評價體系,量化每月經濟水平,從而探討極端天氣降雨情況對經濟水平的影響

第五問,結合上述研究撰寫規劃建議。給大家提供一個輿情:河南鄭州洪水也剛好遇上了市政檢修。

標簽: 資料  10  指標  降雨量  天氣