您當前的位置:首頁 > 繪畫

【論文導讀系列之Entity Alignment】--Neighborhood Matching Network for Entity Alignment

作者:由 master學堂 發表于 繪畫時間:2020-12-20

引入:實體對齊(Entity Alignment)是構建知識圖譜(Knowledge Graph)最為基礎的一步,他關係到一個知識圖譜質量的高低。知識可以從多個地方獲取,不同地方獲取的知識形式和風格各不相同,比如阿里巴巴創始人在有的地方叫“馬雲”,有的地方叫“Jack Ma”。計算機是無法直接知道他們相等。實體對齊就是透過一系列演算法告訴計算機他們是同一個實體。本文導讀的論文“Neighborhood Matching Network for Entity Alignment Yuting”提出了一種新的實體對齊模型(NMN, Neighborhood Matching Network)。這篇論文被髮表在了2020年度ACL會議上。

1。 Definition

2。 Motivation

3。 Contribution

4。 Content

4。1 KG Structure Embedding

4。2 Neighborhood Sampling

4。3 Neighborhood Matching

4。4 Neighborhood Aggregation

5。 Experiments

1。 Definition

Entity alignment aims to find entities in different knowledge graphs (KGs) that refer to the same real-world object。

實體對齊旨在找到來源於不同知識圖譜但是表達了同一個真實世界物體的實體。知識圖譜的構建過程往往需要融合不同的知識,而實體對齊便為知識的融合提供了有力的支援。一個知識圖譜可以表示為:

G=(E,R,T)

,其中

E

表示這個知識圖譜內部的所有實體集合,

R

表示所有的關係集合,

T

表示實體和關係對應的所有三元組,那麼實體對齊要解決的問題是基於兩個知識圖譜

G_1

G_2

,分別在兩個知識圖譜中找到實體

e_1 \in E_1

e_2 \in E_2

滿足

e_1 = e_2

【論文導讀系列之Entity Alignment】--Neighborhood Matching Network for Entity Alignment

Image

2。 Motivation

在真實場景中,由於人類知識的侷限性,知識圖譜往往是不完整,此外,不同的知識圖譜具有不同的結構(heterogeneous schemas)。這便導致了即使兩個實體是表達同一個意思,他們在知識圖譜中的相鄰節點結構差異很大。這種現象很廣泛的出現在知識圖譜的實體對齊過程中。如下圖所示:

【論文導讀系列之Entity Alignment】--Neighborhood Matching Network for Entity Alignment

Image

知識圖譜KG1中的實體“布魯克林區”和知識圖譜KG2中的實體“Brooklyn”表示紐約的同一個行政區,然而他們的鄰居節點數目分別是3和21,差距很大。隨著鄰居節點數目的差異逐漸增大,現有的基於投影(embedding-based)的實體對齊方法準確率越來越低。

we find that the alignment accuracy of existing embedding-based methods decreases significantly as the gap of equivalent entities’ neighborhood sizes increases。

實體對齊還存在另外一個問題。一些比較大眾化的鄰居節點很普遍的出現在知識圖譜中,這些節點的出現將會干擾實體對齊的準確率。如下圖所示:

【論文導讀系列之Entity Alignment】--Neighborhood Matching Network for Entity Alignment

Image

知識圖譜KG1中的實體“利物浦”和知識圖譜KG2中的實體“Liverpool”均表示英國的同一個城市,他們的鄰居節點規模數分別是20和22,差距並不是很大,此外,他們有三個共同的鄰居節點(英格蘭、英國、工黨)。事實上,部分城市比如伯明翰也擁有這三個鄰居節點,如果僅選擇這三個鄰居節點作為判斷是否是同一個實體的依據,將會造成錯誤的融合。因此,在做實體對齊的過程中,如何去選擇準確的鄰居節點是一個很重要的環節,而現有的基於投影的實體對齊模型不能準確的選擇合適的鄰居節點進行對齊。文章為了解決這樣一些問題,提出了一種新的基於取樣的實體對齊框架(Neighborhood Matching Network,NMN)。NMN旨在精確的選擇出包含最多資訊量的鄰居節點以及準確的計算出不同實體鄰居節點的相似度。

3。 Contribution

論文圍繞第2節分析的知識圖譜面臨的兩個問題,做出了以下兩個貢獻:

a。在實體對齊任務中,為了識別出最具有資訊量的鄰居節點,論文提出了一種新的圖取樣策略。

b。基於待對齊的兩個實體,分別和他們的鄰居構成了兩個子圖,論文探索了這兩個子圖的相似度計算策略,利用子圖的相似度最佳化實體的向量表達,最佳化後的實體向量表達結果相對於最佳化之前去做實體對齊任務更加魯棒。

接下來詳細介紹論文的主要工作

4。 Content

4。1 KG Structure Embedding

NMN首先對知識圖譜的結構進行投影,獲取知識圖譜中的實體和關係的向量表達。論文使用了多層圖卷積神經網路(GCN)進行了投影。每層圖卷積神經網路將節點的特徵作為輸入,利用下列公式更新該層網路中實體

i

的向量表達:

【論文導讀系列之Entity Alignment】--Neighborhood Matching Network for Entity Alignment

Image

其中

h_i^{(l)}

表示實體

e_i

在第

l

層的向量表達,

\epsilon_i

是一個正則化常量,

N_i

表示實體

e_i

的所有鄰居實體,因此這個公式可以理解為實體

e_i

在第_l_ 層的向量表達是他的所有鄰居實體以及他自己在第

l-1

層的向量表達的結果進行加權求和連線啟用函式(ReLU)的結果

4。2 Neighborhood Sampling

在得到實體的向量表達以後,最樸素的方式去衡量這兩個實體是否是同一個實體的方法是計算他們之間的相似度。論文對實體的向量化表達的結果進行了最佳化,融合了實體的鄰居節點資訊,即基於該實體,和鄰居節點,構建子圖,然後利用子圖的結構資訊去最佳化中心實體的向量化表達。

根據之前的分析,一個實體,他周圍的鄰居節點對這個實體的貢獻並不是權重相等,因此論文基於以下規則去不同的鄰居節點的權重進行了調整,即鄰居節點和中心節點經常一起出現在同一個文字中,這樣的鄰居節點擁有較高的權重。

Our key insight is that the more often a neighbor and the central (or target) entity appear in the same context, the more representative and informative the neighbor is towards the central entity

事實上,這樣的鄰居節點和中心節點在向量表達上是非常相似的,因此可以透過計算他們之間的餘弦相似度去等價的衡量鄰居節點的重要性。論文是透過如下公式衡量一個鄰居節點被取樣構建子圖的機率的大小:

【論文導讀系列之Entity Alignment】--Neighborhood Matching Network for Entity Alignment

Image

其中

h_{i-j}

表示實體

e_i

對應的鄰居實體

e_{i_j}

的向量表達,

p(h_{i-j}|h_i)

表示給定中心實體

e_i

選擇鄰居實體

e_{i_j}

構建子圖的機率大小。透過選擇性的篩選一箇中心實體的鄰居節點,NMN可以構建一個更加具有區分度的目標子圖,為後面的相似度計算做準備。

4。3 Neighborhood Matching

NMN將實體的向量化表達融合鄰居節點的結構資訊的過程分成了兩步。

第一步做了一個召回,確定一個候選集,候選集的確定直接使用了單個實體的向量表達,透過如下公式進行選擇:

【論文導讀系列之Entity Alignment】--Neighborhood Matching Network for Entity Alignment

Image

第二步是基於候選實體對應的候選子圖進行計算鄰居節點的cross-graph matching vector,這個向量可以理解為一箇中間變數。首先再次定義一下這個問題。令

(e_i,c_{ik})

是一對實體,其中

e_i in E_1

是待最佳化的中心實體,

c_{ik} \in E_2

是透過召回選擇出來的候選集中的一個實體。假設

p,q

是這兩個實體分別對應的一個鄰居節點,論文透過如下公式來計算

e_i

節點的鄰居節點p的cross-graph matching vector(

m_p

):

【論文導讀系列之Entity Alignment】--Neighborhood Matching Network for Entity Alignment

Image

其中

N_{i_k}^s

表示

c_{ik}

的所有鄰居節點,可以將

a_{pq}

理解為一個注意力機制的權重係數。

m_p

可以理解為是衡量鄰居節點

p

與另外一個子圖的所有鄰居節點的差異性。然後考慮鄰居節點

p

本身的GCN表達的結果

h_p

,最後節點

p

可以表達為(||表示concate連線):

【論文導讀系列之Entity Alignment】--Neighborhood Matching Network for Entity Alignment

Image

直觀上去理解這個matching vector(

m_p

),首先注意力機制讓節點

p

注意到與他最接近另外一個子圖內的鄰居節點

q

(因為權重

a_{pq}

最大)。然後分析_p_

q

節點的情況,當鄰居節點

p

q

非常相似,那麼

m_p

接近0,得到的向量

\hat{h}_p

基本上和

h_p

差距不大,即之前的表達

h_p

是相似的兩個節點,現在的表達

\hat{h}_p

仍然是相似的兩個節點。但是如果

p

q

距離很遠,

m_p

的出現將會使

\hat{h}_p

h_p

的差距更大,基於現在的向量表達

\hat{h}_p

,這兩個節點的距離更遠。

4。4 Neighborhood Aggregation

基於一箇中心實體

e_i

得到了這個實體所有鄰居節點的matching vector

\hat{h}_p

之後,使用下列兩個公式,可以很輕鬆的得到中心實體的最佳化後的向量化表達:

【論文導讀系列之Entity Alignment】--Neighborhood Matching Network for Entity Alignment

Image

【論文導讀系列之Entity Alignment】--Neighborhood Matching Network for Entity Alignment

Image

其中第一張圖是靈感來自於論文《Gated graph sequence neural networks》

5。 Experiments

實驗部分這裡只說兩個部分,第一個部分是對照比較NMN和其他方法的優勢。

【論文導讀系列之Entity Alignment】--Neighborhood Matching Network for Entity Alignment

Image

第二個部分是鄰居取樣方法的驗證,將鄰居的權重即注意力機制進行視覺化,可以看出最能反應中心實體特徵的鄰居節點被賦予了較高的權重。

【論文導讀系列之Entity Alignment】--Neighborhood Matching Network for Entity Alignment

Image

[1] Modeling Multi-mapping Relations for Precise Cross-lingual Entity Alignment

[2] Yujia Li, Richard Zemel, Marc Brockschmidt, and Daniel Tarlow。 2016。 Gated graph sequence neural networks。 In Proceedings ofICLR’16。

標簽: 節點  實體  鄰居  圖譜  對齊