推薦系統中的 bias 整理

作者：由 richard 發表于美食時間：2021-12-15

整理了最近在微信公眾號和知乎上看到的關於bias與debias的相關內容，缺乏實踐經驗，感覺理解還是偏薄，希望後續能回來補充。

一。簡介

bias的型別，各自的原因+影響

1。 position bias

原因：使用者傾向於點選最前面的item或者是最後面的item，忽略中間的結果

影響：模型對使用者偏好的感知出現偏差；被點選的item點選率被高估了；讓模型預估不包含位置資訊的點選率

解決方法：下文

2。 exposure bias

原因：使用者的隱式反饋，如點選。使用者只能看到曝光後的併產生互動，但資料中沒互動的item不代表使用者不喜歡，可能是沒曝光。（用更深層次的話說；訓練的cvr模型對於那些不被點選的樣本是無法得知其是否被轉化的；訓練的ctr模型對於那些沒有曝光機會的樣本是無法得知其是否被點選。然而serving階段，這兩種模型面對的是所有的樣本，其中有很多是從未曝光過的，導致training與serving不一致）

影響：

3。 selection bias

原因：使用者的顯示反饋，如評分。使用者只會對自己感興趣的item進行評分

影響：使用者不會對不感興趣的item打分，資料會非隨機缺失（Missing Not At Random）

4。 popularity bias

原因：熱門item

影響：熱門item逐漸靠前，長尾逐漸靠後，不公平；當拿長尾資料進行訓練後，模型可能會對熱門item更高打分，低頻item更低打分

二。 Position Bias解決方法

1。將位置資訊作為特徵輸入模型裡

過程：

online：預設值輸入，預設值可能需要調參得到

2。利用淺層網路學習位置特徵

做法：來源於MMoE論文；輸入和position相關的特徵如position/device info（不同裝置會有不同的位置偏差），輸出bias分量，與主模型的輸出一同過sigmoid

注意：訓練時隨機丟掉10%位置特徵，防止模型過度依賴位置特徵（如何丟？？）；該網路無需和其他特徵做互動，因此位置偏差只會影響使用者是否看到並點選，對其他行為不影響

online：丟掉淺層網路（如何丟？？）

3。建模成兩階段機率

做法：

\eqalign{ P（y=1|x，pos）&=P（seen|pos） \cdot P（y=1|x，seen） \cr bCTR_{i}&=ProbSeen_{i} \cdot pCTR_{i} }\\

online：假設該item已被曝光，使用者點選的機率，因此直接預估pCTR

反思：假設太強，該條件機率相乘，可以拆開來看 P（seen|pos），曝光是否只與位置有關，

三。 Exposure Bias解決方法

1。 Data Augmentation

最樸素的想法，儘可能將那些沒進入訓練集的樣本用上

1。1 All negative with confidence

❌confidence其實就是權重，加權的意思。可行性不高，權重值難以獲取

1。2 imputation model

❌對未曝光／未點選的樣本打標籤，然而這些標籤沒有ground truth，因此無法衡量效果

1。3 multitask learning

eg：阿里的ESMM

2。 IPS（Inverse Propensity Score）

假設樣本曝光或點選服從一個伯努利分佈，然後從機率論推匯出：只要給每個曝光樣本加權（權重即位inverse propensity score），最終在曝光的樣本上求期望就等於在全量樣本上求期望。其實思想就是importance sampling。

這個傾向性得分propensity score直觀來說是樣本

進入訓練集

的機率，比如對於CTR模型，propensity是曝光機率；對於CVR模型，propensity是點選機率

用機率論推導比較麻煩，這裡用importance sampling思想推在觀測到的樣本中，樣本

被取樣機率為

z_{i}

，而全部樣本中，由於每個樣本都會被採到，因此機率是1，即加權係數是

\frac{1}{z_{i}}

，最終最佳化公式能從

\eqalign{ min \sum_{i=1}^{L_{all}}l（y_{i}，p_{i}） \cr \rightarrow min \sum_{i=1}^{L_{part}} \frac{l（y_{i}， p_{i}）}{z_{i}} }\\

3。 Domain Adaption

類似transfer learning思想，將曝光／點選樣本視作source domain，全部樣本視為target domain，有名的例子是ESAM： Discriminative gDomain Adaptation with Non-Displayed Items to Improve Long-Tail Performance，與ESMM不同在於，前者為召回場景，後者為CVR場景

Reference

微信文章 - 搜尋、推薦、廣告中的曝光偏差問題［**］

微信文章 - 聊一聊搜尋推薦中的Position Bias

知乎 - 推薦系統中的bias&&debias（一）：bias的成因、型別和影響

知乎 - 推薦系統中的bias&&debias（二）：position bias的消偏

推薦生態中的bias與debias

標簽： bias 樣本 item 曝光點選

上一篇:最正宗的桂林米粉吃法是怎麼樣的？

下一篇：超好吃‼️自制✨巧克力乳酪流心月餅✨