您當前的位置:首頁 > 舞蹈

使用 AutoML 進行時間序列預測

作者:由 雨夜的部落格 發表于 舞蹈時間:2022-02-10

時間序列預測是機器學習 (ML) 的一個重要研究領域,尤其是在準確預測至關重要的領域,包括零售、供應鏈、能源、金融等多個行業。例如,在消費品領域,提高準確性需求預測的 10-20% 可以減少 5% 的庫存和增加 2-3% 的收入。當前基於 ML 的預測解決方案通常由專家構建,需要大量的手動工作,包括模型構建、特徵工程和超引數調整。但是,此類專業知識可能無法廣泛使用,這可能會限制將 ML 應用於時間序列預測挑戰的好處。

為了解決這個問題,自動機器學習(AutoML) 是一種透過自動化建立 ML 模型的過程使 ML 更廣泛可用的方法,並且最近加速了 ML 研究和 ML 在實際問題中的應用。例如,神經架構搜尋的初期工作使計算機視覺(如NasNet、AmoebaNet和EfficientNet)和自然語言處理(如Evolved Transformer)取得了突破。最近,AutoML 也被應用於表格資料。

今天,我們為時間序列預測推出了一個可擴充套件的端到端 AutoML 解決方案,它滿足三個關鍵標準:

全自動:該解決方案將資料作為輸入,並生成一個可服務的TensorFlow模型作為輸出,無需人工干預。

通用:該解決方案適用於大多數時間序列預測任務,並自動為每個任務搜尋最佳模型配置。

高品質:與為特定任務手工製作的模型相比,所生產的模型具有具有競爭力的質量。

我們透過參加M5 預測競賽證明了這種方法的成功,在該競賽中,該 AutoML 解決方案以中等計算成本與手工製作的模型相比取得了具有競爭力的效能。

挑戰時間序列預測

時間序列預測帶來了一些挑戰,以機器學習模型。首先,不確定性通常很高,因為目標是根據歷史資料預測未來。與其他機器學習問題不同,測試集(例如未來的產品銷售)可能與從歷史資料中提取的訓練和驗證集具有不同的分佈。其次,來自現實世界的時間序列資料往往存在資料缺失和高間歇性的問題(即,當時間序列的大部分值為零時)。一些時間序列任務可能沒有可用的歷史資料並且會遇到冷啟動問題,例如,在預測新產品的銷售情況時。第三,由於我們的目標是構建一個完全自動化的通用解決方案,因此相同的解決方案需要應用於各種資料集,這些資料集在領域(產品銷售、網路流量等)、粒度(每天、每小時等)方面可能會有很大差異)、歷史長度、特徵型別(分類、數字、日期時間等)等。

AutoML 解決方案

為了應對這些挑戰,我們設計了一個端到端的 TensorFlow 管道,其中包含用於時間序列預測的專門搜尋空間。它基於編碼器-解碼器架構,其中編碼器將時間序列中的歷史資訊轉換為一組向量,解碼器基於這些向量生成未來預測。受最先進的序列模型(如Transformer和WaveNet)以及時間序列預測最佳實踐的啟發,我們的搜尋空間包括諸如注意力、擴張卷積、門控、跳躍連線等元件,以及不同的特徵變換。生成的 AutoML 解決方案會搜尋這些元件以及核心超引數的最佳組合。

為了對抗預測時間序列未來的不確定性,使用搜索中發現的頂級模型的集合來進行最終預測。頂級模型的多樣性使預測對不確定性更加穩健,並且不太容易過度擬合曆史資料。為了處理缺失資料的時間序列,我們用一個可訓練的向量填補空白,讓模型學習適應缺失的時間步長。為了解決間歇性問題,我們對每個未來的時間步長不僅預測該值,而且預測該時間步長的值不為零的機率,並將這兩個預測結合起來。最後,我們發現自動搜尋能夠為不同的資料集調整架構和超引數選擇,這使得 AutoML 解決方案具有通用性並自動化建模工作。

使用 AutoML 進行時間序列預測

預測競賽中的

基準測試 為了對我們的 AutoML 解決方案進行基準測試,我們參加了M5 預測競賽,這是M 競賽系列中最新的一項,這是預測界最重要的競賽之一,有著近 40 年的悠久歷史。最近的比賽是在 Kaggle 上舉辦的,並使用了沃爾瑪產品銷售的資料集,其真實世界的性質使得這個問題非常具有挑戰性。

我們使用我們的全自動解決方案參加了比賽,並在最終排行榜上的 5558 名參與者中獲得了 138 名(前 2。5%),位於銀牌區。比賽的參與者有將近四個月的時間來製作他們的模型。雖然許多具有競爭力的預測模型需要花費數月的人工來建立,但我們的 AutoML 解決方案在短時間內找到了模型,計算成本適中(2 小時 500 個 CPU)且無需人工干預。

我們還在其他幾個 Kaggle 資料集上對我們的 AutoML 預測解決方案進行了基準測試,發現儘管資源使用有限,但它平均優於 92% 的手工模型。

使用 AutoML 進行時間序列預測

這項工作展示了用於時間序列預測的端到端 AutoML 解決方案的優勢,我們對其對現實世界應用程式的潛在影響感到興奮。

更新說明:優先更新微信公眾號“雨夜的部落格”,後更新部落格,之後才會陸續分發到各個平臺,如果先提前瞭解更多,請關注微信公眾號“雨夜的部落格”。

部落格來源:雨夜的部落格

標簽: 預測  AutoML  解決方案  序列  模型