空氣質量預測論文筆記(1)
Multi-Group Encoder-Decoder Networks to Fuse Heterogeneous Data for Next-Day Air Quality Prediction
IJCAI-2019
解決的問題:
1。 如何在非多模態的多源資料中識別出多模態或特徵組
2。 如何使用融合架構進行時間序列預測發,LSTM和seq2seq針對單一場景設計。
解決方法
:
1。利用多源資料,基於高頻網格的天氣資料來模擬大氣汙染五動態水平。
2。在網格天氣資料中加入卷積運算,捕捉不同天氣引數對大氣汙染物變化的影響。
3。根據特徵之間的相關性對特徵進行自動分組(跨域)提出multi-group編碼解碼器網路,有效融合各個特徵組
首先空氣質量受複雜因素影響,具有較高的時空變異性。空氣質量檢測站通常空間分佈稀疏。
提出了一種多組編解碼器網路(MGED-NET)融合了異構資料。
1。 利用多重資料,利用官方來源的高頻網基天氣資料。
2。 利用區域性卷積獲取動態影響,歷史,預報,
3。 採用分散式融合序列學習相結合,分散式:多個特徵組的分組策略,序列學習:編解碼器的LSTM
資料:
1。 空氣質量資料:35個站點;兩年;六種汙染物;用線性插值填補三小時內的資料缺失;超過3小時無
2。 天氣資料:來源GDAS;空間解析度:0。25,117格;溫度,溼度,風度,風向;
3。 地理資料:來源OSM;解析度80m;描述了不同位置的地理特徵;
問題定義:
模型:MGED-Net
模型包涵多個編碼器和一個解碼器:都是用LSTM堆疊建立。
每個特性組被自動確定輸入到不同編碼器中,使用融合單元在隱藏狀態是聯合表示,作為解碼器初始狀態,預測。
特徵表示
此方法在文中僅僅針對天氣資料。天氣特徵是網格化的,而我們針對的是站點的空氣質量預測。所以要將網格化的資料轉換為與某一站點有關的資料,採用了三種方法結合:
選取站點所在的網格的天氣資料。
取周圍k×k網格天氣資料的平均。
用各種代表天氣狀態(比如風向)的卷積核卷積k×k的網格天氣資料。
特徵分組
本文提到了3種不同的分組方法:
每個特徵一組
每個領域的特徵一組。(天氣特徵一組,空氣質量特徵一組)
相關性分組
相關性分組是重點。本文的分組思想是最大化類內相關性並且最小化類間相關性。用到了皮爾遜相關係數來表示相關性。採用列舉把特徵分為2,3,4個組,來找出符合最大化類內相關性和最小化類間相關性的分組方法。
融合架構
特徵融合(在encoder之前)
encoder之後融合(在網路結構圖中fusion位置)
encoder之後與相關性結合的融合(在網路結構圖中fusion位置)
實驗結果對比
特徵表示的三種方案對比
特徵分組三種方案對比
三種融合架構的對比
和其他模型的對比
總結:
融合架構:利用的是編解碼器和LSTM 表示時間序列。編解碼器生成模式簡單,後續考慮利用GAN 和LSTM 或者其他生成模型,做生成器。同時在特徵提取利用了卷積的方法,考慮結合之前提取地域特徵的卷積方式。剛開始看這類文章自己的想法,不成熟,再進步。
上一篇:這個食物上面有黑毛,能吃嗎?
下一篇:十大安全套使用的正確方式