資料分析之機器學習入門

作者：由薯片大叔發表于文化時間：2018-06-07

資料分析是一門包含眾多專業要素的技術。究其本質，是研究已經發生的事件產生的資料，透過歸納統計，提取有用資訊，從而預測未知資料，或者對相關變數進行控制。機器學習是資料分析中的一件利器，可以透過科學的統計方法，對已知資料歸納整理，建立模型，對未知資料進行預測。

本篇文章只作為最簡單的機器學習入門介紹，以泰坦尼克號生還率預測為例，方法為簡單線性迴歸和邏輯迴歸。（文章只講原理，程式碼放在最後）

此案例分析資料來自於kaggle上6年前的一個分析專案：

Titanic: Machine Learning from Disaster。

本案例提供了兩份資料：已知生還與否的乘客資訊，和未知的乘客資訊。透過對乘客的年齡，階級地位，性別等因素，預測未知生還的乘客的生還狀況。

首先理清思路，按照機器學習的步驟進行操作：

獲取資料，檢視資訊輪廓

清洗資料，提取特徵值

建立迴歸模型，並對模型透過已有資料進行訓練

模型評估，預測結果

清洗資料（重要的一步）

kaggle已經提供了資料，因此我們可以直接進行清洗資料。清洗資料是繁瑣而且坑比較多的地方，資料清洗的好壞直接影響預測結果。

我們需要先檢視資料的特徵項資訊，檢視缺失資料的數目佔比。對於缺失量很小的特徵，我們可以選擇個案剔除法，均值替換法等，對於缺失量較多的資料則可採用多重替代法，迴歸替換法等。每種方法都有自己的優勢，操作簡單或者預測準確，但同樣都會對結果產生不確定的影響。

在Titanic專案中，資料總量為1309條，其中891條為已知資料，其餘未知，列表大致資訊如下：

根據以上資訊，大致可以看出，乘客的平均年齡大概29。7歲（只統計未缺失），階級特徵大概在2~3class，平均擁有親人接近1個（sibsp+parch），有人的船票不要錢，也有人的船票高達500+。但是以上資訊有些雜亂，比如Pclass有三個等級，Name的資訊也不確定，所以考慮將所有資料整合後，進行特徵提取。

作為特徵的缺失資料有：

Age 1046 non-null float64

Cabin 295 non-null object

Embarked 1307 non-null object

Fare 1308 non-null float64

年齡：

缺失值較多，但是這又是一個不可忽視的因素，可以考慮將他作為一個小標籤（target）進行預測，但問題是，本專案的資料只有1309條，屬於少量資料，如果進行迴歸預測，過擬合的可能性極大，因此還是老實地選擇均值填充。

船艙號：

缺失資料更大，佔了70%以上。分兩點考慮：

船艙號和Pclass在現實意義上應該具有相關性；

會不會社會地位高的人船艙號遺失機率小一些，而社會地位低的人船艙號遺失可能較大？

分析之後決定做重新命名，以U代替船艙號。