Ner 論文7:Span相關
why?
1、傳統dnn+crf的方式,主要針對短ner,如果是很長的ner,crf本身的一階轉移就顯得太單薄了,這時候span應運而生。
2、span在ner部分經常會碰見,尤其碰到巢狀解決方案,除此之外,會結合關係抽取joint起來多工訓練。
ner在方法論上大體有四種方法:
序列標註
:每個序列位置都被標註為一個標籤,比如按照BILOU標註,我們常用MLP或CRF解碼。
指標標註
:對每個span的start和end進行標記,對於多片段抽取問題轉化為N個2分類(N為序列長度),如果涉及多類別可以轉化為層疊式指標標註(C個指標網路,C為類別總數)。事實上,
指標標註已經成為統一實體、關係、事件抽取的一個“大殺器”
。
多頭標註
:對每個token pair進行標記,其實就是構建一個
的分類矩陣,可以用於實體或關係抽取。其重點就是如何強有力的表徵構建分類矩陣。事實上,
多頭標註成為了眾多實體和關係抽取SOTA的首選利器
!(PS:多頭標註是JayJay自己叫的,單純是為了紀念多頭選擇機制的關係抽取論文
[1]
)
片段排列
:源於Span-level NER
[2]
的思想,列舉所有可能的span進行分類,同序列長度進行解耦,可以更加靈活地處理複雜抽取和低資源問題。事實上,
片段排列的思想已經被Google
[3]
推崇並統一了資訊抽取各個子任務
。
第一篇;
Span抽取:指標網路
指標網路(PointerNet)最早應用於MRC中,而MRC中通常根據1個question從passage中抽取1個答案片段,轉化為
2個n元SoftMax分類
預測頭指標和尾指標。對於NER可能會存在多個實體Span,因此需要轉化為
n個2元Sigmoid分類
預測頭指標和尾指標
多層label指標網路
。由於只使用單層指標網路時,無法抽取多型別的實體,我們可以構建多層指標網路,每一層都對應一個實體型別
注意:
1)筆者在實踐中發現,n個2元Sigmoid分類的指標網路,會導致樣本Tag空間稀疏,同時收斂速度會較慢,特別是對於實體span長度較長的情況。
第二篇;Span-based Joint Entity and Relation Extraction with Transformer Pre-training
https://
github。com/lavis-nlp/sp
ert
SpERT是一種基於span的實體和關係聯合訓練方法,同時訓練實體和關係類別。其思想是先生成一句話中所有的span,獲取span的表徵,對span進行實體類別的分類的,然後再將實體兩兩組合,形成關係的表徵,對關係進行分類。
參考:
https://
zhuanlan。zhihu。com/p/77
868938
https://
zhuanlan。zhihu。com/p/27
4938894
https://
zhuanlan。zhihu。com/p/14
2615620
https://
zhuanlan。zhihu。com/p/14
2615620
https://
zhuanlan。zhihu。com/p/32
6302618
https://
zhuanlan。zhihu。com/p/34
2032812
一些公開的效果
https://
github。com/lonePatient/
BERT-NER-Pytorch
參考
^
Joint entity recognition and relation extraction as a multi-head selection problem
https://www。sciencedirect。com/science/article/abs/pii/S095741741830455X?via%3Dihub
^
Span-based Joint Entity and Relation Extraction with Transformer Pre-training
https://arxiv。org/pdf/1909。07755。pdf
^
Entity, Relation, and Event Extraction with Contextualized Span Representations
https://www。aclweb。org/anthology/D19-1585。pdf