期望和條件期望

作者：由 Nittanystat 發表于攝影時間：2022-08-31

本文主要討論期望和條件期望的性質。我們將說明：在L2損失下，數學期望E（Y）是Y的最優常數擬合，而條件數學期望E（Y|X）則是Y的最優函式擬合。即我們有

1. 意義

通常，Y被稱為響應變數，是我們需要進行擬合或者控制的變數，而X稱為自變數。上述結果表明，在沒有自變數的時候，Y的最優擬合值即為數學期望E（Y）。而如果存在自變數X，最優擬合則變為E（Y|X）。當然，上述討論均在L2損失下。如果損失函式發生變化，對應的最優擬合也將發生改變。比如若考慮L1損失，則相應的最優解變為中位數和條件中位數。

在迴歸分析中，有這樣一個常識，即自變數個數越多，往往擬合效果越好。這一現象可以從上式進行解釋。現在考慮自變數X，Z，那麼根據上式我們得到：

實際上，E（Y|X，Z）和E（Y|X）均為（X，Z）的函式，而在所有（X，Z）的函式中，E（Y|X，Z）對應的L2損失最小。這說明，在迴歸擬閤中，應儘可能地收集和響應變數Y相關的自變數，以使得擬合誤差儘可能的小。

那麼是不是自變數越多越好呢？答案依賴於我們怎麼定義“好”？如果從擬合的角度，的確自變數越多越好。但變數的增加會使得模型的複雜度增加，自變數之間的共線性變強，使得最終的估計結果變差。另外自變數增加後會降低擬合結果的解釋性。因此我們需要在模型擬合和模型複雜度之間做一個平衡。這樣的思考自然地引出了模型選擇方法AIC（Akaike information criterion）和BIC（Bayesian Information Criterion）。也是現今各種懲罰估計量如LASSO和SCAD等方法的基本思路。

上述結果還解釋了為何迴歸分析在統計學當中起到了非常核心的作用。根據上述結果，在L2損失下，E（Y|X）是Y的最優函式擬合。那麼如何利用資料擬合條件數學期望呢？這依賴於我們對資料的認識。如果認為自變數和響應變數之間是線性關係，那麼我們可以建立線性迴歸模型。如果對於自變數和響應變數之間的關係並不明確，則可以利用k最近鄰方法來區域性地近似E（Y|X）。如The Elements of Statistical Learning書中所指，如今絕大多數最受歡迎的技巧都是這兩種基本思想的變形。實際上，這兩種建模思路也類似引數統計和非引數統計的思想。當對資料存在一定認識時，我們應利用上這種認識以此來提高估計的精度和解釋性。但先驗的結構認識可能是錯的，為避免這種情況，採用更靈活的建模方式是適當的。但相應地，會損失估計精度和解釋性。