資料探勘方法及應用概述(一):概況與聚類方法
資料探勘概述
概述
資料探勘特點:高速、大量、多樣、價值
大資料分析核心要素:基於雲計算的基礎設施、分散式的大資料體系、資料分析方法與演算法、行業應用知識與經驗
資料探勘結果呈現形式
數學模型
推理規則
圖形
資料探勘結果基本特徵
潛在性:大資料中隱藏的變數相關性、資料內在結構等
可理解性:結論具有符合研究問題的可解釋性(可能是虛假相關或其他因素傳遞導致假象)
有價值性:要求結果對決策有意義。經常引入專家對結果可理解性與價值進行評估
資料探勘解決的問題
資料預測、發現數據內在結構、發現關聯性、模式甄別
資料預測:例如預測某個使用者是否留存或留存機率
資料分類:獲得分類結果
迴歸分析:得到數值解
發現數據內在結構:例如使用者分群
聚類
發現關聯性:簡單關聯性/時序關聯性,可用於找到與高留存相關的使用者行為
模式甄別:例如識別網路入侵行為、惡意欺詐、虛報瞞報等,可用於反作弊
模式具有區域性性、非隨機性、非常規性的特點
資料探勘典型商業應用
客戶細分
選擇恰當的細分變數
聚類方法
從業務角度評價細分結果的實際適用性
客戶流失分析:主要針對客戶主動流失的部分
流失原因分析:為指定客戶留存/召回方案提供依據
流失預測::為測算避免流失所付出的維護成本提供依據
測算不同客戶的流失可能性
預測客戶流失時間(統計學的生存分析,通常不納入資料探勘)
營銷響應分析
目的是確定營銷的目標群體
老產品推廣或換代產品可根據原有客戶資訊分析其特徵,全新產品可結合經驗和主觀判斷,並進行小規模試驗
交叉銷售中的應用(例如電商個性化推薦系統)
欺詐甄別中的應用
甄別曾出現過的欺詐行為
甄別尚未出現過的欺詐行為
均需人工核查,需確定合適的人工核查欺詐分標準
聚類:發現數據中的自然群組
聚類分析概述
目標:發現數據中的“自然小類”(區別於主觀小類,例如RFM模型分群),通常自然小類具有類內結構相似、類間結構差異顯著的特點
主流聚類演算法
基於質心的聚類演算法:確定性、無層次關係(KMeans)
基於聯通性的聚類模型:從距離和聯通性角度,空間中距離較近的組成一個類,確定性、有層次關係
基於統計分佈的聚類模型:不確定性、無層次關係
常規聚類
基於質心:K-Means
距離測度(體現全方位性)
閔可夫斯基Minkowski距離:兩觀測點p個變數值差的絕對值k次方總和的 k次方根(k可任意指定)
歐氏距離:兩觀測點p個變數值差的平方和開平方(Minkowski距離取k=2)
絕對距離:兩觀測點p個變數值差的絕對值總和(Minkowski距離取k=1)
切比雪夫距離:兩觀測點p個變數值差的絕對值得最大值
夾角餘弦距離:兩觀測點的夾角餘弦距離
聚類過程
事先確定質心數量k(手肘法、輪廓係數法)
根據初始質心聚類後,以各類所有觀值作為新的質心重新聚類(迭代)
聚類終止條件:1)達到指定迭代次數;2)類質心點偏移程度(小於規定值),兩次迭代的質心距離偏移小
提出影響距離計算的因素
消除量綱影響(標準化)
聚類變數不應有強線性相關關係
特點:適用於變數為數值型的情況;受樣本中噪聲資料影響較大
PAM聚類:在KMeans基礎新增計算最小總代價的步驟,迭代新質心與類內所有點的總代價(類內其他觀測與某觀測點的距離之和)比較,選取最小總代價的點
基於聯通性:層次聚類
由每個觀測點開始,依次聚類,由小類到大類(n個觀測點透過n-1步形成一個大類)
距離測度
觀測點間距離計算:與KMeans相同
觀測點與小類間距離計算
最近鄰法:觀測點與小類聯通長度是距離小類所有觀測點間的最小值
組間平均鏈鎖法:與聯通小類間所有觀測距離的均值
組內平均鏈鎖法:與小類間所有觀測及自身小類內所有觀測距離均值
質心法:與聯通小類質心距離
隨著類數減少,各類差別減小,類間距離增幅變大,應取適當類別數(距離測度——聚類數目曲線拐點 )
基於統計分佈的聚類:EM聚類
認為每個自然小類來自於某個特定的統計分佈(例如兩個高斯分佈樣本的混合)
EM演算法:E步,隨即指派觀測點類別,計算各成本分佈引數;M步,根據E步分佈引數重新劃分類別;EM迭代進行直到收斂
EM聚類的聚類數量:根據BIC資訊準則確定
特色聚類
BIRCH聚類概述
特點:適用於記憶體空間有限條件下的高維大資料集聚類問題;線上資料動態聚類;可進行噪聲資料識別
重要策略
聚類特徵CF,Clustering Feature:對於觀測或小類只需要很少幾個統計量,這幾個統計量稱為聚類特徵
類內樣本量
p維數值向量,儲存p個聚類變數的線性和
p維數值向量,儲存p個聚類變數的平方和
聚類特徵樹
樹狀結構反映聚類結果的層次關係
分支因子B(根節點包含的子類個數限定)和閾值T(類直徑:兩兩觀測間距離的均值,的限定)
各節點僅儲存聚類特徵,節省儲存空間
SOM網路聚類
SOM:Self-Organizaing Map,自組織對映,基於觀測點在聚類特徵空間距離
特點
包含一個輸入層(輸入節點個數等於聚類變數個數)和一個輸出層(個數等於預期聚類數目K)
聚類過程
資料標準化
給定聚類數目K和初始質心
迭代質心、找到各觀測最近的質心節點
反覆迭代直至收斂
基於密度的聚類模型:DSBSCAN聚類
利用類的密度,可發現
任意形狀的類和噪聲觀測點
設定引數
鄰域半徑
鄰域半徑範圍內包含的最少觀測點個數minP
觀測點分類
核心點:鄰域半徑範圍內鄰居個數≥minP,則稱該點為核心點
邊緣點:若某觀測點鄰域範圍內鄰居個數少於minP,且該點是核心點鄰域邊緣線上的點,稱為邊緣點
核心點的直接密度可達點:觀測點在P的鄰域範圍內,則稱為核心點P的直接密度可達點
密度可達點:直接密度可達點具有
傳遞性
,P的直接密度可達點的直接密度可達點是P的密度可達點
噪聲點:上述各種點以外的點
聚類過程:球形的直接密度可達小類形狀,連線後形成類似任意形狀的類
從任意觀察點開始,在引數條件下判斷各點是否為核心點,並找到其直接密度可達點,分為各個小類
根據密度可達及密度相連關係連接合並各個小類,始終沒有類標籤的即為噪聲點
上一篇:如何認識工作上需要對接的同事?
下一篇:傳統老花鏡原理!有哪些弊端?