您當前的位置:首頁 > 攝影

資料探勘方法及應用概述(一):概況與聚類方法

作者:由 RAYW 發表于 攝影時間:2018-10-14

資料探勘概述

概述

資料探勘特點:高速、大量、多樣、價值

大資料分析核心要素:基於雲計算的基礎設施、分散式的大資料體系、資料分析方法與演算法、行業應用知識與經驗

資料探勘結果呈現形式

數學模型

推理規則

圖形

資料探勘結果基本特徵

潛在性:大資料中隱藏的變數相關性、資料內在結構等

可理解性:結論具有符合研究問題的可解釋性(可能是虛假相關或其他因素傳遞導致假象)

有價值性:要求結果對決策有意義。經常引入專家對結果可理解性與價值進行評估

資料探勘解決的問題

資料預測、發現數據內在結構、發現關聯性、模式甄別

資料預測:例如預測某個使用者是否留存或留存機率

資料分類:獲得分類結果

迴歸分析:得到數值解

發現數據內在結構:例如使用者分群

聚類

發現關聯性:簡單關聯性/時序關聯性,可用於找到與高留存相關的使用者行為

模式甄別:例如識別網路入侵行為、惡意欺詐、虛報瞞報等,可用於反作弊

模式具有區域性性、非隨機性、非常規性的特點

資料探勘典型商業應用

客戶細分

選擇恰當的細分變數

聚類方法

從業務角度評價細分結果的實際適用性

客戶流失分析:主要針對客戶主動流失的部分

流失原因分析:為指定客戶留存/召回方案提供依據

流失預測::為測算避免流失所付出的維護成本提供依據

測算不同客戶的流失可能性

預測客戶流失時間(統計學的生存分析,通常不納入資料探勘)

營銷響應分析

目的是確定營銷的目標群體

老產品推廣或換代產品可根據原有客戶資訊分析其特徵,全新產品可結合經驗和主觀判斷,並進行小規模試驗

交叉銷售中的應用(例如電商個性化推薦系統)

欺詐甄別中的應用

甄別曾出現過的欺詐行為

甄別尚未出現過的欺詐行為

均需人工核查,需確定合適的人工核查欺詐分標準

聚類:發現數據中的自然群組

聚類分析概述

目標:發現數據中的“自然小類”(區別於主觀小類,例如RFM模型分群),通常自然小類具有類內結構相似、類間結構差異顯著的特點

主流聚類演算法

基於質心的聚類演算法:確定性、無層次關係(KMeans)

基於聯通性的聚類模型:從距離和聯通性角度,空間中距離較近的組成一個類,確定性、有層次關係

基於統計分佈的聚類模型:不確定性、無層次關係

常規聚類

基於質心:K-Means

距離測度(體現全方位性)

閔可夫斯基Minkowski距離:兩觀測點p個變數值差的絕對值k次方總和的 k次方根(k可任意指定)

歐氏距離:兩觀測點p個變數值差的平方和開平方(Minkowski距離取k=2)

絕對距離:兩觀測點p個變數值差的絕對值總和(Minkowski距離取k=1)

切比雪夫距離:兩觀測點p個變數值差的絕對值得最大值

夾角餘弦距離:兩觀測點的夾角餘弦距離

聚類過程

事先確定質心數量k(手肘法、輪廓係數法)

根據初始質心聚類後,以各類所有觀值作為新的質心重新聚類(迭代)

聚類終止條件:1)達到指定迭代次數;2)類質心點偏移程度(小於規定值),兩次迭代的質心距離偏移小

提出影響距離計算的因素

消除量綱影響(標準化)

聚類變數不應有強線性相關關係

特點:適用於變數為數值型的情況;受樣本中噪聲資料影響較大

PAM聚類:在KMeans基礎新增計算最小總代價的步驟,迭代新質心與類內所有點的總代價(類內其他觀測與某觀測點的距離之和)比較,選取最小總代價的點

基於聯通性:層次聚類

由每個觀測點開始,依次聚類,由小類到大類(n個觀測點透過n-1步形成一個大類)

距離測度

觀測點間距離計算:與KMeans相同

觀測點與小類間距離計算

最近鄰法:觀測點與小類聯通長度是距離小類所有觀測點間的最小值

組間平均鏈鎖法:與聯通小類間所有觀測距離的均值

組內平均鏈鎖法:與小類間所有觀測及自身小類內所有觀測距離均值

質心法:與聯通小類質心距離

隨著類數減少,各類差別減小,類間距離增幅變大,應取適當類別數(距離測度——聚類數目曲線拐點 )

基於統計分佈的聚類:EM聚類

認為每個自然小類來自於某個特定的統計分佈(例如兩個高斯分佈樣本的混合)

EM演算法:E步,隨即指派觀測點類別,計算各成本分佈引數;M步,根據E步分佈引數重新劃分類別;EM迭代進行直到收斂

EM聚類的聚類數量:根據BIC資訊準則確定

特色聚類

BIRCH聚類概述

特點:適用於記憶體空間有限條件下的高維大資料集聚類問題;線上資料動態聚類;可進行噪聲資料識別

重要策略

聚類特徵CF,Clustering Feature:對於觀測或小類只需要很少幾個統計量,這幾個統計量稱為聚類特徵

類內樣本量

p維數值向量,儲存p個聚類變數的線性和

p維數值向量,儲存p個聚類變數的平方和

聚類特徵樹

樹狀結構反映聚類結果的層次關係

分支因子B(根節點包含的子類個數限定)和閾值T(類直徑:兩兩觀測間距離的均值,的限定)

各節點僅儲存聚類特徵,節省儲存空間

SOM網路聚類

SOM:Self-Organizaing Map,自組織對映,基於觀測點在聚類特徵空間距離

特點

包含一個輸入層(輸入節點個數等於聚類變數個數)和一個輸出層(個數等於預期聚類數目K)

聚類過程

資料標準化

給定聚類數目K和初始質心

迭代質心、找到各觀測最近的質心節點

反覆迭代直至收斂

基於密度的聚類模型:DSBSCAN聚類

利用類的密度,可發現

任意形狀的類和噪聲觀測點

設定引數

鄰域半徑

鄰域半徑範圍內包含的最少觀測點個數minP

觀測點分類

核心點:鄰域半徑範圍內鄰居個數≥minP,則稱該點為核心點

邊緣點:若某觀測點鄰域範圍內鄰居個數少於minP,且該點是核心點鄰域邊緣線上的點,稱為邊緣點

核心點的直接密度可達點:觀測點在P的鄰域範圍內,則稱為核心點P的直接密度可達點

密度可達點:直接密度可達點具有

傳遞性

,P的直接密度可達點的直接密度可達點是P的密度可達點

噪聲點:上述各種點以外的點

聚類過程:球形的直接密度可達小類形狀,連線後形成類似任意形狀的類

從任意觀察點開始,在引數條件下判斷各點是否為核心點,並找到其直接密度可達點,分為各個小類

根據密度可達及密度相連關係連接合並各個小類,始終沒有類標籤的即為噪聲點

標簽: 聚類  觀測點  距離  小類  質心