如何計算AUC

作者：由亦一發表于寵物時間：2022-09-18

前文《什麼是好的推薦，重新理解AUC》從什麼是好的推薦系統，引出了AUC的定義，並基於定義推匯出AUC的計算、AUC的優點（為什麼用AUC評估分類模型）、AUC的缺點，在文末留了幾個可以繼續討論的點，本文將繼續討論AUC，主要介紹AUC的具體計算方法，後續文章將會相繼分享過擬合，AUC離線和線上表現不一致等問題。

前文根據AUC的定義推匯出AUC的計算公式：

$AUC=\frac{\sum_{}^{}{(p_{i}, n_{j})_{p_{i} > n_{j}}}}{P*N}$

，其中

為正樣本數量，

為負樣本數量，

$p_{i}$

為正樣本預測得分，

$n_{j}$

為負樣本預測得分。

1 方法1

用指示函式表示上式中正樣本預測值大於負樣本預測值的正負樣本對，則得到

$AUC=\frac{\sum_{}^{}{I(p_{正樣本}, p_{負樣本})}}{P*N}$

，其中

$I(p_{正樣本}, p_{負樣本})=\left\{ \begin{aligned} 1, p_{正樣本} > p_{負樣本} \\ 0.5, p_{正樣本} = p_{負樣本} \\ 0, p_{正樣本} < p_{負樣本} \end{aligned} \right. , p$

表示預測得分。

根據上式，AUC的計算的關鍵則是得到所有正負樣本對，以及得到每個正負樣本對的指示函式值。這是一個簡單的排列組合問題。

以一個例子進行計算說明。

樣本編號

真實分類

預測值

0。4

0。8

0。2

0。4

0。5

在給出的例子中，包含有2個正樣本（A， B）和3個負樣本（C， D， E），因此一共有6個（2*3）正負樣本對，即公式中分母為6。

接下來計算公式中的分子，即每個正負樣本對的指示函式值：

以A為正樣本形成的正負樣本對為（A， C），（A， D），（A， E），指示函式值分別為1，0。5，0；

以B為正樣本形成的正負樣本對為（B， C），（B， D），（B， E），指示函式值分別為1，1，1。

因此

$AUC=\frac{\sum_{}^{}{I(p_{正樣本}, p_{負樣本})}}{P*N} = \frac{1+0.5+0+1+1+1}{2*3} = \frac{3}{4}$

這種方法計算AUC的時間複雜度為

，獲取正負樣本的數量時間複雜度為

，計算所有樣本對的指示函式值時間複雜度為

，故時間複雜度為

。

2 方法2

用方法1計算AUC易於理解，但需要對所有樣本對計算指示函式值，有沒有不需要對所有樣本對遍歷的方法？

AUC計算的關鍵是找到所有正樣本預測值大於負樣本預測值的正負樣本對。

如果引入排序，則大小關係就可以確定；

如果有正樣本的排序序號，則可以知道樣本對（當前樣本，<=當前正樣本預測值樣本）的數量，這其中的樣本對包括正負樣本對，也包括正正樣本對，則減去正正樣本對就是AUC計算需要的正負樣本對。

根據以上兩點分析，則可以對所有樣本按照預測值從低到高排序。排序後可以得到每個正樣本的序號，用

$r_{i}$

表示第i個正樣本的序號，則樣本對（當前樣本，<=當前正樣本預測值的樣本）的數量為

$r_{i}$

，其中正正樣本對有若干個，用

$PP_{i}$

表示，

$PP_{i}$

包括了和當前正樣本本身形成的正正樣本對。

則由當前正樣本形成的正負樣本對（正樣本預測值>負樣本預測值）的數量=

$r_{i}-PP_{i}$

，對所有正樣本形成的正負樣本對（正樣本預測值>負樣本預測值）求和，即得到了AUC計算公式的分子，即

$\sum_{樣本_{i}\in正樣本}^{}{{r_{i} - PP_{i}}}$

。

對每個正樣本而言，

$PP_{i}$

值未知，而對所有正樣本的

$PP_{i}$

求和，其值為

$\frac{P*(P+1)}{2}$

。具體計算如下：得分最高的正樣本，

$PP_{i}$

是所有正樣本的數量，即

，得分第2高的正樣本，

$PP_{i}=P-1$

，得分最低的正樣本，

$PP_{i}=P-1$

，因此所有正樣本的

$PP_{i}$

形成一個等差數列

$\left[P, P-1, P-2,...,1 \right]$

，該等差數列求和值為

$\frac{P*(P+1)}{2}$

。

因此

$AUC=\frac{\sum_{樣本_{i}\in正樣本}{{r_{i} - \frac{P*(P+1)}{2}}}}{P*N}$

。

這種方法計算AUC的時間複雜度為

，獲取正負樣本的數量時間複雜度為

，排序的時間複雜度

，故時間複雜度為

。

繼續以上面例子為例，按照預測得分從低到高排序

樣本編號

真實分類

預測值

排序值

0。4

0。8

0。2

0。4

0。5

在上面的例子中出現了得分相等的情況，這時候排序值由相同得分的排序值算平均值，所以計算AUC時，樣本A的排序值等於樣本A本身和它相同得分樣本D的排序值均值，即（2+3）/2=2。5，因此帶入AUC的計算公式，得

$AUC=\frac{(2.5+5)-\frac{2*(2+1)}{2}}{2*3}=\frac{3}{4}$

。

3 程式碼實現AUC計算

推薦相關崗位的面試中，面試官經常問到AUC的計算，主要想考察面試者對AUC的理解，也就是本文介紹的方法1或者方法2。下面將給3種計算的程式碼實現：

python中的sklearn工具

本文中的方法1

本文中的方法2

在方法2的實現程式碼中，為了方便，當預測得分相同時，沒有按照定義用排序值的均值，而是直接使用排序均值。使用這種近似，對本文中的例子的AUC有影響，但生產環境的資料集大，

這種近似對AUC的影響極小

。

import

numpy

from

sklearn。metrics

import

roc_auc_score

# python sklearn包計算auc

def

get_auc

（

y_labels

，

y_scores

）：

auc

roc_auc_score

（

y_labels

，

y_scores

）

（

‘AUC calculated by sklearn tool is

{}

’

。

format

（

auc

））

return

auc

# 方法1計算auc

def

calculate_auc_func1

（

y_labels

，

y_scores

）：

pos_sample_ids

［

for

range

（

len

（

y_labels

））

y_labels

［

］

neg_sample_ids

［

for

range

（

len

（

y_labels

））

y_labels

［

］

sum_indicator_value

for

pos_sample_ids

：

for

neg_sample_ids

：

y_scores

［

］

y_scores

［

］：

sum_indicator_value

elif

y_scores

［

］

y_scores

［

］：

sum_indicator_value

0。5

auc

sum_indicator_value

（

len

（

pos_sample_ids

）

len

（

neg_sample_ids

））

（

‘AUC calculated by function1 is

{：。2f}

’

。

format

（

auc

））

return

auc

# 方法2計算auc，當預測分相同時，未按照定義使用排序值的均值，而是直接使用排序值，當資料量大時，對auc影響小

def

calculate_auc_func2

（

y_labels

，

y_scores

）：

samples

list

（

zip

（

y_scores

，

y_labels

））

rank

［（

values2

，

values1

）

for

values1

，

values2

sorted

（

samples

，

key

lambda

：

［

］）］

pos_rank

［

for

range

（

len

（

rank

））

rank

［

］［

］

pos_cnt

。

sum

（

y_labels

）

neg_cnt

。

sum

（

y_labels

）

auc

（

。

sum

（

pos_rank

）

pos_cnt

（

pos_cnt

）

（

pos_cnt

neg_cnt

）

（

‘AUC calculated by function2 is

{：。2f}

’

。

format

（

auc

））

return

auc

__name__

‘__main__’

：

y_labels

。

array

（［

，

］）

y_scores

。

array

（［

0。4

，

0。8

，

0。2

，

0。4

，

0。5

］）

get_auc

（

y_labels

，

y_scores

）

calculate_auc_func1

（

y_labels

，

y_scores

）

calculate_auc_func2

（

y_labels

，

y_scores

）

上述程式碼執行結果

圖1 auc計算程式碼執行結果

由於方法2做了近似，例子中的樣本數量少，影響較大。在實際推薦業務，由於資料量非常大，近似對auc值的影響可以忽略不計。

預告：下一篇將分享過擬合問題。

推薦系列文章：

郭婷：什麼是好的推薦，重新理解AUC

郭婷：為什麼需要推薦

工作相關的內容會同步在”播播筆記“這個公眾號更新

生活的思考和記錄會更新在”吾之“這個公眾號

標簽：樣本 AUC labels scores

上一篇:“徒”的同派義的本字是什麼？

下一篇：長安UNI-T就是衝著吉利ICON來的：智慧言之尚早，先鋒各有所愛

如何計算AUC

猜你喜歡

一支普通中性筆芯能寫多久（可以拿寫過的紙長大小數量厚度來舉例）？

樣本標準差STDEV和總體標準差STDEV.P的區別和粗暴理解

比較兩個疾病模型的預測能力，AUC和NRI瞭解一下？

【目標檢測】後處理再加速！幾種不同的NMS後處理方法速度表現

Java 陣列之一維陣列

如何計算AUC

猜你喜歡

一支普通中性筆芯能寫多久（可以拿寫過的紙長大小數量厚度來舉例）？

樣本標準差STDEV和總體標準差STDEV.P的區別和粗暴理解

比較兩個疾病模型的預測能力，AUC和NRI瞭解一下？

【目標檢測】後處理再加速！幾種不同的NMS後處理方法速度表現

Java 陣列 之 一維陣列

Java 陣列之一維陣列