您當前的位置:首頁 > 舞蹈

Ner 論文7:Span相關

作者:由 劉東澤 發表于 舞蹈時間:2021-06-29

why?

1、傳統dnn+crf的方式,主要針對短ner,如果是很長的ner,crf本身的一階轉移就顯得太單薄了,這時候span應運而生。

2、span在ner部分經常會碰見,尤其碰到巢狀解決方案,除此之外,會結合關係抽取joint起來多工訓練。

ner在方法論上大體有四種方法:

序列標註

:每個序列位置都被標註為一個標籤,比如按照BILOU標註,我們常用MLP或CRF解碼。

指標標註

:對每個span的start和end進行標記,對於多片段抽取問題轉化為N個2分類(N為序列長度),如果涉及多類別可以轉化為層疊式指標標註(C個指標網路,C為類別總數)。事實上,

指標標註已經成為統一實體、關係、事件抽取的一個“大殺器”

多頭標註

:對每個token pair進行標記,其實就是構建一個

 \times \times

的分類矩陣,可以用於實體或關係抽取。其重點就是如何強有力的表徵構建分類矩陣。事實上,

多頭標註成為了眾多實體和關係抽取SOTA的首選利器

!(PS:多頭標註是JayJay自己叫的,單純是為了紀念多頭選擇機制的關係抽取論文

[1]

片段排列

:源於Span-level NER

[2]

的思想,列舉所有可能的span進行分類,同序列長度進行解耦,可以更加靈活地處理複雜抽取和低資源問題。事實上,

片段排列的思想已經被Google

[3]

推崇並統一了資訊抽取各個子任務

第一篇;

Span抽取:指標網路

指標網路(PointerNet)最早應用於MRC中,而MRC中通常根據1個question從passage中抽取1個答案片段,轉化為

2個n元SoftMax分類

預測頭指標和尾指標。對於NER可能會存在多個實體Span,因此需要轉化為

n個2元Sigmoid分類

預測頭指標和尾指標

多層label指標網路

。由於只使用單層指標網路時,無法抽取多型別的實體,我們可以構建多層指標網路,每一層都對應一個實體型別

Ner 論文7:Span相關

注意:

1)筆者在實踐中發現,n個2元Sigmoid分類的指標網路,會導致樣本Tag空間稀疏,同時收斂速度會較慢,特別是對於實體span長度較長的情況。

第二篇;Span-based Joint Entity and Relation Extraction with Transformer Pre-training

https://

github。com/lavis-nlp/sp

ert

SpERT是一種基於span的實體和關係聯合訓練方法,同時訓練實體和關係類別。其思想是先生成一句話中所有的span,獲取span的表徵,對span進行實體類別的分類的,然後再將實體兩兩組合,形成關係的表徵,對關係進行分類。

Ner 論文7:Span相關

參考:

https://

zhuanlan。zhihu。com/p/77

868938

https://

zhuanlan。zhihu。com/p/27

4938894

https://

zhuanlan。zhihu。com/p/14

2615620

https://

zhuanlan。zhihu。com/p/14

2615620

https://

zhuanlan。zhihu。com/p/32

6302618

https://

zhuanlan。zhihu。com/p/34

2032812

一些公開的效果

Ner 論文7:Span相關

Ner 論文7:Span相關

https://

github。com/lonePatient/

BERT-NER-Pytorch

參考

^

Joint entity recognition and relation extraction as a multi-head selection problem

https://www。sciencedirect。com/science/article/abs/pii/S095741741830455X?via%3Dihub

^

Span-based Joint Entity and Relation Extraction with Transformer Pre-training

https://arxiv。org/pdf/1909。07755。pdf

^

Entity, Relation, and Event Extraction with Contextualized Span Representations

https://www。aclweb。org/anthology/D19-1585。pdf

標簽: 指標  Span  com  抽取  標註