您當前的位置:首頁 > 攝影

SPSS進行逐步迴歸分析

作者:由 路上的你 發表于 攝影時間:2016-10-19

SPSS進行逐步迴歸分析

在自變數很多時,其中有的因素可能對應變數的影響不是很大,而且x之間可能不完全相互獨立的,可能有種種互作關係。在這種情況下可用逐步迴歸分析,進行x因子的篩選,這樣建立的多元迴歸模型預測效果會更較好。

逐步迴歸分析,首先要建立因變數y與自變數x之間的總迴歸方程,再對總的方程及每—個自變數進行假設檢驗。當總的方程不顯著時,表明該多元迴歸方程線性關係不成立;而當某—個自變數對y影響不顯著時,應該把它剔除,重新建立不包含該因子的多元迴歸方程。篩選出有顯著影響的因子作為自變數,並建立“最優”迴歸方程。

迴歸方程包含的自變數越多,迴歸平方和越大,剩餘的平方和越小,剩餘均方也隨之較小,預測值

的誤差也愈小,模擬的效果愈好。但是方程中的變數過多,預報工作量就會越大,其中有些相關性不顯著的預報因子會影響預測的效果。因此在多元迴歸模型中,選擇適宜的變數數目尤為重要。

逐步迴歸在病蟲預報中的應用例項:

以陝西省長武地區1984~1995年的菸蚜傳毒病情資料、相關蟲情和氣象資料為例(資料見DATA6。xls),建立蚜傳病毒病情指數的逐步迴歸模型,說明逐步迴歸分析的具體步驟。影響蚜傳病毒病情指數的蟲情因子和氣象因子一共有21個,透過逐步迴歸,從中選出對病情指數影響顯著的因子,從而建立相應的模型。對1984~1995年的病情指數進行回檢,然後對1996~1998年的病情進行預報,再檢驗預報的效果。

變數說明如下:

y:歷年病情指數

x1:前年冬季油菜越冬時的蚜量(頭/株)

x2:前年冬季極端氣溫

x3:5月份最高氣溫

x4:5月份最低氣溫

x5:3~5月份降水量

x6:4~6月份降水量

x7:3~5月份均溫

x8:4~6月份均溫

x9:4月份降水量

x10:4月份均溫

x11:5月份均溫

x12:5月份降水量

x13:6月份均溫

x14:6月份降水量

x15:第一次蚜遷高峰期百株菸草有翅蚜量

x16:5月份油菜百株蚜量

x17:7月份降水量

x18:8月份降水量

x19:7月份均溫

x20:8月份均溫

x21:元月均溫

1)準備分析資料

在SPSS資料編輯視窗中,用“File→Open→Data”命令,開啟“DATA6。xls”資料檔案。資料工作區如下圖3-1顯示。

圖3-1

2)啟動線性迴歸過程

單擊SPSS主選單的“Analyze”下的“Regression”中“Linear”項,將開啟如圖3-2所示的線性迴歸過程視窗。

圖3-2 線性迴歸對話視窗

3) 設定分析變數

設定因變數:將左邊變數列表中的“y”變數,選入到“Dependent”因變數顯示欄裡。

設定自變數:將左邊變數列表中的“x1”~“x21”變數,全部選移到“Independent(S)”自變數欄裡。

設定控制變數: 本例子中不使用控制變數,所以不選擇任何變數。

選擇標籤變數: 選擇“年份”為標籤變數。

選擇加權變數: 本例子沒有加權變數,因此不作任何設定。

4)迴歸方式

在“Method”分析方法框中選中“Stepwise”逐步分析方法。該方法是根據“Options”選擇對話方塊中顯著性檢驗(F)的設定,在方程中進入或剔除單個變數,直到所建立的方程中不再含有可加入或可剔除的變數為止。設定後的對話視窗如圖3-3。

圖3-3

5)設定變數檢驗水平

在圖6-15主對話方塊裡單擊“Options”按鈕,將開啟如圖3-4所示的對話方塊。

圖3-4

“Stepping Method Criteria”框裡的設定用於逐步迴歸分析的選擇標準。

其中“Use probability of F”選項,提供設定顯著性F檢驗的機率。如果一個變數的F檢驗機率小於或等於進入“Entry”欄裡設定的值,那麼這個變數將被選入迴歸方程中;當迴歸方程中變數的F值檢驗機率大於剔除“Removal”欄裡設定的值,則該變數將從迴歸方程中被剔除。由此可見,設定F檢驗機率時,應使進入值小於剔除值。

“Ues F value” 選項,提供設定顯著性F檢驗的分佈值。如果一個變數的F值大於所設定的進入值(Entry),那麼這個變數將被選入迴歸方程中;當迴歸方程中變數的F值小於設定的剔除值(Removal),則該變數將從迴歸方程中被剔除。同時,設定F分佈值時,應該使進入值大於剔除值。

本例子使用顯著性F檢驗的機率,在進入“Entry”欄裡設定為“0。15”,在剔除“Removal”欄裡設定為“0。20”(剔除的機率值應比進入的值大),如圖6-17所示。

圖6-17視窗中的其它設定參照一元迴歸設定。

6)設定輸出統計量

在主對話圖3-2視窗中,單擊“Statistics”按鈕,將開啟如圖6-18所示的對話方塊。該對話方塊用於設定相關引數。其中各項的意義分別為:

圖3-5 “Statistics”對話方塊

①“Regression Coefficients”迴歸係數選項:

“Estimates”輸出迴歸係數和相關統計量。

“Confidence interval”迴歸係數的95%置信區間

“Covariance matrix”迴歸係數的方差-協方差矩陣。

本例子選擇“Estimates”輸出迴歸係數和相關統計量。

②“Residuals”殘差選項:

“Durbin-Watson”Durbin-Watson檢驗。

“Casewise diagnostic”輸出滿足選擇條件的觀測量的相關資訊。選擇該項,下面兩項處於可選狀態:

“Outliers outside standard deviations”選擇標準化殘差的絕對值大於輸入值的觀測量;

“All cases”選擇所有觀測量。

本例子都不選。

③ 其它輸入選項

“Model fit”輸出相關係數、相關係數平方、調整係數、估計標準誤、ANOVA表。

“R squared change”輸出由於加入和剔除變數而引起的複相關係數平方的變化。

“Descriptives”輸出變數矩陣、標準差和相關係數單側顯著性水平矩陣。

“Part and partial correlation”相關係數和偏相關係數。

“Collinearity diagnostics”顯示單個變數和共線性分析的公差。

本例子選擇“Model fit”項。

7)繪圖選項

在主對話方塊單擊“Plots”按鈕,將開啟如圖3-6所示的對話方塊視窗。該對話方塊用於設定要繪製的圖形的引數。圖中的“X”和“Y”框用於選擇X軸和Y軸相應的變數。

圖3-6“Plots”繪圖對話方塊視窗

左上框中各項的意義分別為:

“DEPENDNT”因變數。

“ZPRED”標準化預測值。

“ZRESID”標準化殘差。

“DRESID”刪除殘差。

“ADJPRED”調節預測值。

“SRESID”學生氏化殘差。

“SDRESID”學生氏化刪除殘差。

“Standardized Residual Plots”設定各變數的標準化殘差圖形輸出。其中共包含兩個選項:

“Histogram”用直方圖顯示標準化殘差。

“Normal probability plots”比較標準化殘差與正態殘差的分佈示意圖。

“Produce all partial plot”偏殘差圖。對每一個自變數生成其殘差對因變數殘差的散點圖。

本例子不作繪圖,不選擇。

8) 儲存分析資料的選項

在主對話方塊裡單擊“Save”按鈕,將開啟如圖3-7所示的對話方塊。

圖3-7“Save”對話方塊

①“Predicted Values”預測值欄選項:

Unstandardized 非標準化預測值。就會在當前資料檔案中新新增一個以字元“PRE_”開頭命名的變數,存放根據回

歸模型擬合的預測值。

Standardized 標準化預測值。

Adjusted 調整後預測值。

S。E。 of mean predictions 預測值的標準誤。

本例選中“Unstandardized”非標準化預測值。

②“Distances”距離欄選項:

Mahalanobis: 距離。

Cook’s”: Cook距離。

Leverage values: 槓桿值。

③“Prediction Intervals”預測區間選項:

Mean: 區間的中心位置。

Individual: 觀測量上限和下限的預測區間。在當前資料檔案中新新增一個以字元“LICI_”開頭命名的變數,存放

預測區間下限值;以字元“UICI_”開頭命名的變數,存放預測區間上限值。

Confidence Interval:置信度。

本例不選。

④“Save to New File”儲存為新檔案:

選中“Coefficient statistics”項將回歸係數儲存到指定的檔案中。本例不選。

⑤ “Export model information to XML file” 匯出統計過程中的迴歸模型資訊到指定檔案。本例不選。

⑥“Residuals” 儲存殘差選項:

“Unstandardized”非標準化殘差。

“Standardized”標準化殘差。

“Studentized”學生氏化殘差。

“Deleted”刪除殘差。

“Studentized deleted”學生氏化刪除殘差。

本例不選。

⑦“Influence Statistics” 統計量的影響。

“DfBeta(s)”刪除一個特定的觀測值所引起的迴歸係數的變化。

“Standardized DfBeta(s)”標準化的DfBeta值。

“DiFit” 刪除一個特定的觀測值所引起的預測值的變化。

“Standardized DiFit”標準化的DiFit值。

“Covariance ratio”刪除一個觀測值後的協方差矩隈的行列式和帶有全部觀測值的協方差矩陣的行列式的比率。

本例子不儲存任何分析變數,不選擇。

9)提交執行

在主對話方塊裡單擊“OK”,提交執行,結果將顯示在輸出視窗中。主要結果見表6-10至表6-13。

10) 結果分析

主要結果:

表6-10 是逐步迴歸每一步進入或剔除迴歸模型中的變數情況。

表6-11 是逐步迴歸每一步的迴歸模型的統計量:R 是相關係數;R Square 相關係數的平方,又稱判定係數,判定線性迴歸的擬合程度:用來說明用自變數解釋因變數變異的程度(所佔比例);Adjusted R Square 調整後的判定係數;Std。 Error of the Estimate 估計標準誤差。

表6-12 是逐步迴歸每一步的迴歸模型的方差分析,F值為10。930,顯著性機率是0。001,表明迴歸極顯著。

表6-13 是逐步迴歸每一步的迴歸方程係數表。

分析:

建立迴歸模型:

根據多元迴歸模型:

從6-13中看出,過程一共運行了四步,最後一步以就是表中的第4步的計算結果得知:21個變數中只進入了4個變數x15、x4、x7 和 x5。

把表6-13中“非標準化迴歸係數”欄目中的“B”列資料代入多元迴歸模型得到預報方程:

預測值的標準差可用剩餘標準差估計:

迴歸方程的顯著性檢驗:

從表6-12方差分析表第4模型中得知:F統計量為622。72,系統自動檢驗的顯著性水平為0。0000(非常小)。

F(0。00001,4,7)值為70。00。因此迴歸方程相關非常非常顯著。

由迴歸方程式可以看出,在陝西長武菸草蚜傳病毒病8月份的病情指數(y)與x4(5月份最低氣溫)、x15(第一次蚜遷高峰期百株菸草有翅蚜量)呈顯著正相關,而與x5(3~5月份降水量)和x7 (3~5月份均溫)呈顯著負相關。

透過大田調查結果表明,菸草蚜傳病毒病發生與蚜蟲的遷飛有密切的關係。遷入煙田的有翅蚜有兩次高峰期,呈雙峰曲線。第一高峰期出現在5月中旬至6月初,此次遷飛的高峰期與大田發病率呈顯著正相關。第二高峰期在6月上旬末至6月中旬,此次遷飛高峰期與大田發病率關係不大。5月份的最低氣溫(x4)和3~5月份均溫(x7 )透過影響傳媒介體蚜蟲的活動來影響田間發病。而第一次蚜遷高峰期百株菸草有翅蚜量(x15)是影響菸草蚜傳病毒病病情指數(y)的重要因子。3~5月份降水量(x5)透過影響田間蚜蟲傳病毒病發病植株的症狀表現影響大田發病程度。cda資料分析培訓