資料探勘方法及應用概述（一）：概況與聚類方法

作者：由 RAYW 發表于攝影時間：2018-10-14

資料探勘概述

概述

資料探勘特點：高速、大量、多樣、價值

大資料分析核心要素：基於雲計算的基礎設施、分散式的大資料體系、資料分析方法與演算法、行業應用知識與經驗

資料探勘結果呈現形式

數學模型

推理規則

圖形

資料探勘結果基本特徵

潛在性：大資料中隱藏的變數相關性、資料內在結構等

可理解性：結論具有符合研究問題的可解釋性（可能是虛假相關或其他因素傳遞導致假象）

有價值性：要求結果對決策有意義。經常引入專家對結果可理解性與價值進行評估

資料探勘解決的問題

資料預測、發現數據內在結構、發現關聯性、模式甄別

資料預測：例如預測某個使用者是否留存或留存機率

資料分類：獲得分類結果

迴歸分析：得到數值解

發現數據內在結構：例如使用者分群

聚類

發現關聯性：簡單關聯性/時序關聯性，可用於找到與高留存相關的使用者行為

模式甄別：例如識別網路入侵行為、惡意欺詐、虛報瞞報等，可用於反作弊

模式具有區域性性、非隨機性、非常規性的特點

資料探勘典型商業應用

客戶細分

選擇恰當的細分變數

聚類方法

從業務角度評價細分結果的實際適用性

客戶流失分析：主要針對客戶主動流失的部分

流失原因分析：為指定客戶留存/召回方案提供依據

流失預測：：為測算避免流失所付出的維護成本提供依據

測算不同客戶的流失可能性

預測客戶流失時間（統計學的生存分析，通常不納入資料探勘）

營銷響應分析

目的是確定營銷的目標群體

老產品推廣或換代產品可根據原有客戶資訊分析其特徵，全新產品可結合經驗和主觀判斷，並進行小規模試驗

交叉銷售中的應用（例如電商個性化推薦系統）

欺詐甄別中的應用

甄別曾出現過的欺詐行為

甄別尚未出現過的欺詐行為

均需人工核查，需確定合適的人工核查欺詐分標準

聚類：發現數據中的自然群組

聚類分析概述

目標：發現數據中的“自然小類”（區別於主觀小類，例如RFM模型分群），通常自然小類具有類內結構相似、類間結構差異顯著的特點

主流聚類演算法

基於質心的聚類演算法：確定性、無層次關係（KMeans）

基於聯通性的聚類模型：從距離和聯通性角度，空間中距離較近的組成一個類，確定性、有層次關係

基於統計分佈的聚類模型：不確定性、無層次關係

常規聚類

基於質心：K-Means

距離測度（體現全方位性）

閔可夫斯基Minkowski距離：兩觀測點p個變數值差的絕對值k次方總和的 k次方根（k可任意指定）

歐氏距離：兩觀測點p個變數值差的平方和開平方（Minkowski距離取k=2）

絕對距離：兩觀測點p個變數值差的絕對值總和（Minkowski距離取k=1）

切比雪夫距離：兩觀測點p個變數值差的絕對值得最大值

夾角餘弦距離：兩觀測點的夾角餘弦距離

聚類過程

事先確定質心數量k（手肘法、輪廓係數法）

根據初始質心聚類後，以各類所有觀值作為新的質心重新聚類（迭代）

聚類終止條件：1）達到指定迭代次數；2）類質心點偏移程度（小於規定值），兩次迭代的質心距離偏移小

提出影響距離計算的因素

消除量綱影響（標準化）

聚類變數不應有強線性相關關係

特點：適用於變數為數值型的情況；受樣本中噪聲資料影響較大

PAM聚類：在KMeans基礎新增計算最小總代價的步驟，迭代新質心與類內所有點的總代價（類內其他觀測與某觀測點的距離之和）比較，選取最小總代價的點

基於聯通性：層次聚類

由每個觀測點開始，依次聚類，由小類到大類（n個觀測點透過n-1步形成一個大類）

距離測度

觀測點間距離計算：與KMeans相同

觀測點與小類間距離計算

最近鄰法：觀測點與小類聯通長度是距離小類所有觀測點間的最小值

組間平均鏈鎖法：與聯通小類間所有觀測距離的均值

組內平均鏈鎖法：與小類間所有觀測及自身小類內所有觀測距離均值

質心法：與聯通小類質心距離

隨著類數減少，各類差別減小，類間距離增幅變大，應取適當類別數（距離測度——聚類數目曲線拐點）

基於統計分佈的聚類：EM聚類

認為每個自然小類來自於某個特定的統計分佈（例如兩個高斯分佈樣本的混合）

EM演算法：E步，隨即指派觀測點類別，計算各成本分佈引數；M步，根據E步分佈引數重新劃分類別；EM迭代進行直到收斂

EM聚類的聚類數量：根據BIC資訊準則確定

特色聚類

BIRCH聚類概述

特點：適用於記憶體空間有限條件下的高維大資料集聚類問題；線上資料動態聚類；可進行噪聲資料識別

重要策略

聚類特徵CF，Clustering Feature：對於觀測或小類只需要很少幾個統計量，這幾個統計量稱為聚類特徵

類內樣本量

p維數值向量，儲存p個聚類變數的線性和

p維數值向量，儲存p個聚類變數的平方和

聚類特徵樹

樹狀結構反映聚類結果的層次關係

分支因子B（根節點包含的子類個數限定）和閾值T（類直徑：兩兩觀測間距離的均值，的限定）

各節點僅儲存聚類特徵，節省儲存空間

SOM網路聚類

SOM：Self-Organizaing Map，自組織對映，基於觀測點在聚類特徵空間距離

特點

包含一個輸入層（輸入節點個數等於聚類變數個數）和一個輸出層（個數等於預期聚類數目K）

聚類過程

資料標準化

給定聚類數目K和初始質心

迭代質心、找到各觀測最近的質心節點

反覆迭代直至收斂

基於密度的聚類模型：DSBSCAN聚類

利用類的密度，可發現

任意形狀的類和噪聲觀測點

設定引數

鄰域半徑

鄰域半徑範圍內包含的最少觀測點個數minP

觀測點分類

核心點：鄰域半徑範圍內鄰居個數≥minP，則稱該點為核心點

邊緣點：若某觀測點鄰域範圍內鄰居個數少於minP，且該點是核心點鄰域邊緣線上的點，稱為邊緣點

核心點的直接密度可達點：觀測點在P的鄰域範圍內，則稱為核心點P的直接密度可達點

密度可達點：直接密度可達點具有

傳遞性

，P的直接密度可達點的直接密度可達點是P的密度可達點

噪聲點：上述各種點以外的點

聚類過程：球形的直接密度可達小類形狀，連線後形成類似任意形狀的類

從任意觀察點開始，在引數條件下判斷各點是否為核心點，並找到其直接密度可達點，分為各個小類

根據密度可達及密度相連關係連接合並各個小類，始終沒有類標籤的即為噪聲點

標簽：聚類觀測點距離小類質心

上一篇:如何認識工作上需要對接的同事？

下一篇：傳統老花鏡原理！有哪些弊端？

資料探勘方法及應用概述（一）：概況與聚類方法

猜你喜歡

堅果j10投影距離和尺寸?堅果j10最大投影尺寸

“一碗湯”的距離，到底有多遠？

專案之間專案之間的高樓間距是多少？

投影機投射比是什麼意思？帶你瞭解投影機投射比！

基於SAS資料探勘的零售企業客戶行為細分