【論文導讀系列之Entity Alignment】--Neighborhood Matching Network for Entity Alignment

作者：由 master學堂發表于繪畫時間：2020-12-20

引入：實體對齊（Entity Alignment）是構建知識圖譜（Knowledge Graph）最為基礎的一步，他關係到一個知識圖譜質量的高低。知識可以從多個地方獲取，不同地方獲取的知識形式和風格各不相同，比如阿里巴巴創始人在有的地方叫“馬雲”，有的地方叫“Jack Ma”。計算機是無法直接知道他們相等。實體對齊就是透過一系列演算法告訴計算機他們是同一個實體。本文導讀的論文“Neighborhood Matching Network for Entity Alignment Yuting”提出了一種新的實體對齊模型（NMN， Neighborhood Matching Network）。這篇論文被髮表在了2020年度ACL會議上。

1。 Definition

2。 Motivation

3。 Contribution

4。 Content

4。1 KG Structure Embedding

4。2 Neighborhood Sampling

4。3 Neighborhood Matching

4。4 Neighborhood Aggregation

5。 Experiments

1。 Definition

Entity alignment aims to find entities in different knowledge graphs （KGs） that refer to the same real-world object。

實體對齊旨在找到來源於不同知識圖譜但是表達了同一個真實世界物體的實體。知識圖譜的構建過程往往需要融合不同的知識，而實體對齊便為知識的融合提供了有力的支援。一個知識圖譜可以表示為：

，其中

表示這個知識圖譜內部的所有實體集合，

表示所有的關係集合，

表示實體和關係對應的所有三元組，那麼實體對齊要解決的問題是基於兩個知識圖譜

和

，分別在兩個知識圖譜中找到實體

$e_1 \in E_1$

和

$e_2 \in E_2$

滿足

。

Image

2。 Motivation

在真實場景中，由於人類知識的侷限性，知識圖譜往往是不完整，此外，不同的知識圖譜具有不同的結構（heterogeneous schemas）。這便導致了即使兩個實體是表達同一個意思，他們在知識圖譜中的相鄰節點結構差異很大。這種現象很廣泛的出現在知識圖譜的實體對齊過程中。如下圖所示：

Image

知識圖譜KG1中的實體“布魯克林區”和知識圖譜KG2中的實體“Brooklyn”表示紐約的同一個行政區，然而他們的鄰居節點數目分別是3和21，差距很大。隨著鄰居節點數目的差異逐漸增大，現有的基於投影（embedding-based）的實體對齊方法準確率越來越低。

we find that the alignment accuracy of existing embedding-based methods decreases significantly as the gap of equivalent entities’ neighborhood sizes increases。

實體對齊還存在另外一個問題。一些比較大眾化的鄰居節點很普遍的出現在知識圖譜中，這些節點的出現將會干擾實體對齊的準確率。如下圖所示：

Image

知識圖譜KG1中的實體“利物浦”和知識圖譜KG2中的實體“Liverpool”均表示英國的同一個城市，他們的鄰居節點規模數分別是20和22，差距並不是很大，此外，他們有三個共同的鄰居節點（英格蘭、英國、工黨）。事實上，部分城市比如伯明翰也擁有這三個鄰居節點，如果僅選擇這三個鄰居節點作為判斷是否是同一個實體的依據，將會造成錯誤的融合。因此，在做實體對齊的過程中，如何去選擇準確的鄰居節點是一個很重要的環節，而現有的基於投影的實體對齊模型不能準確的選擇合適的鄰居節點進行對齊。文章為了解決這樣一些問題，提出了一種新的基於取樣的實體對齊框架（Neighborhood Matching Network，NMN）。NMN旨在精確的選擇出包含最多資訊量的鄰居節點以及準確的計算出不同實體鄰居節點的相似度。

3。 Contribution

論文圍繞第2節分析的知識圖譜面臨的兩個問題，做出了以下兩個貢獻：

a。在實體對齊任務中，為了識別出最具有資訊量的鄰居節點，論文提出了一種新的圖取樣策略。

b。基於待對齊的兩個實體，分別和他們的鄰居構成了兩個子圖，論文探索了這兩個子圖的相似度計算策略，利用子圖的相似度最佳化實體的向量表達，最佳化後的實體向量表達結果相對於最佳化之前去做實體對齊任務更加魯棒。

接下來詳細介紹論文的主要工作

4。 Content

4。1 KG Structure Embedding

NMN首先對知識圖譜的結構進行投影，獲取知識圖譜中的實體和關係的向量表達。論文使用了多層圖卷積神經網路（GCN）進行了投影。每層圖卷積神經網路將節點的特徵作為輸入，利用下列公式更新該層網路中實體

的向量表達：

Image

其中

$h_i^{(l)}$

表示實體

在第

層的向量表達，

$\epsilon_i$

是一個正則化常量，

表示實體

的所有鄰居實體，因此這個公式可以理解為實體

在第_l_ 層的向量表達是他的所有鄰居實體以及他自己在第

l-1

層的向量表達的結果進行加權求和連線啟用函式（ReLU）的結果

4。2 Neighborhood Sampling

在得到實體的向量表達以後，最樸素的方式去衡量這兩個實體是否是同一個實體的方法是計算他們之間的相似度。論文對實體的向量化表達的結果進行了最佳化，融合了實體的鄰居節點資訊，即基於該實體，和鄰居節點，構建子圖，然後利用子圖的結構資訊去最佳化中心實體的向量化表達。

根據之前的分析，一個實體，他周圍的鄰居節點對這個實體的貢獻並不是權重相等，因此論文基於以下規則去不同的鄰居節點的權重進行了調整，即鄰居節點和中心節點經常一起出現在同一個文字中，這樣的鄰居節點擁有較高的權重。

Our key insight is that the more often a neighbor and the central （or target） entity appear in the same context， the more representative and informative the neighbor is towards the central entity

事實上，這樣的鄰居節點和中心節點在向量表達上是非常相似的，因此可以透過計算他們之間的餘弦相似度去等價的衡量鄰居節點的重要性。論文是透過如下公式衡量一個鄰居節點被取樣構建子圖的機率的大小：