您當前的位置:首頁 > 繪畫

自然語言處理的21個基本概念(新手入門)

作者:由 現妙明心 發表于 繪畫時間:2022-06-12

1。 語言

語言(language),即自然語言是指漢語、英語、法語等人們日常使用的語言,是自然而然的隨著人類社會發展演變而來的語言,,區別於如程式設計的語言的人工語言。

自然語言是人類特有的用來表達情感、交流思想的工具,本質是一種資訊編碼。語音和文字是構成語言的兩個基本屬性,語音是語言的物質外殼,文字則是記錄語言的書寫符號系統。

2。 自然語言處理

自然語言處理(NLP,Natural Language Processing) 又稱自然語言理解(NLU,Natural language Understanding),即使計算機理解自然語言。

美國計算機科學家馬納瑞斯(Bill Manaris)給自然語言處理的定義為:“自然語言處理是研究人與人交際中以及人與計算機交際中的語言問題的一門學科。自然語言處理要研製表示語言能力(linguistic competence)和語言應用(linguistic performance)的模型,建立計算框架來實現這樣的語言模型,提出相應的方法來不斷地完善這樣的語言模型,根據這樣的語言模型設計各種實用系統,並探討這些實用系統的評測技術。”

3。 語料庫

語料庫(Corpus,複數為Corpora或Corpuses)定義為:為語言研究和應用而收集的,在計算機中儲存的語言材料,由自然出現的書面語或口語的樣本彙集而成,用來代表特定的語言或語言變體。語料庫具有以下三個基本特徵:樣本代表性;規模有限性;機讀形式化。

4。 語言模型

語言模型(language model) 透過對句子的上下文特徵進行數學建模,來回答一個問題:出現的句子是否合理。語言模型是自然語言的基礎,廣泛應用於機器翻譯、語音識別、拼寫糾錯、輸入法、手寫體識別等。

5。 詞

**詞(word)**被定義為能夠形成完整言語的最小語言單位,詞的最小語義部分稱為詞素(morpheme),詞素可用形素(grapheme,字母和字元等書寫符號)拼寫出或用音素(phoneme, 口語中可區分的語音單位)。

6。 分詞

分詞(word segmentation),指對字元序列進行分塊處理的過程,其輸出結果由分開的有意義的詞元組成,是形態分析的基礎性步驟。

7。 語音分析

語音分析(speech analysis) 是要根據音位規則,從語音流中區分出一個個獨立的音素,再根據音位形態規則找出音節及其對應的詞素或詞。

8。 詞法分析

詞法分析(lexical analysis) 是找出詞彙的各個詞素,從中獲得語言學的資訊,主要任務是詞性標註和詞義標註。

9。 句法分析

句法分析(parsing),發現句子內部結構的方法,顯式地發現句子中可能存在的各種謂詞-論元的依存關係。

10。 語義分析

語義分析(semantic parsing),在句子或文字中識別出意義塊(meaning chunk),確定語言所表達的真正含義或概念,並嘗試將其轉換為某種資料結構的過程(將自然文字對映成計算機可處理的結構化表示),包括深層語義分析(deep semantic parsing)與淺層語義分析(shallow semantic parsing),又稱語義角色標註(semantic role labeling)。

11。 語用分析

語用分析是研究語言所存在的外界環境對語言使用者所產生的影響。

12。 命名實體識別

命名實體識別(NER, Named Entity Recognition),又稱未登入詞識別,識別實體的每一次獨立出現,一個命名實體代表了一個名詞的例項,比如一個地點、一個人物或一個組織機構。(ACE任務包含7個主要型別實體:設施(FAC)、地理政治實體(GPE)、地點(LOC)、組織機構(ORG)、人(PER)、交通工具(VEH)、武器(WEA))。

13。 提及檢測

提及檢測(mention detection),檢測某種提及的邊界並有選擇的確定其語義型別(如人物或組織機構)及其他屬性(如名稱、名詞或者代詞)。

14。 共指消解

共指消解(coreference resolution),也稱指代消解(anaphora resolution),確定代詞或名詞短語指的是什麼,將指代相同實體的提及歸結到一個等價類中。

15。 文件分類

文件分類(document categorization/classification),稱文字分類(text categorization/classification)或資訊分類(information categorization/classification),其目的就是對大量的文件按照一定的分類標準(例如,根據主題或內容劃分等)實現自動歸類。

16。 情感分類

情感分類(sentiment classification) 或稱文字傾向性識別(text orientation identification),以自然語言中的個人陳述,如意見(opinion)、感情(emotion)、情感(sentiment)、評價(evaluation)、信念(belief)以及推測(speculation)為主要研究目標,透過主觀性(subjectivity)分析和情感(sentiment)分析,對文字進行分類,其中主觀性分析對文字進行主觀和客觀的分類標註,情感分析更進一步將主觀性文字劃分為正向文字、負向文字以及中性文字。情感分類已經成為支撐輿情分析(public opinion analysis)的基本技術,如公司以利用該技術瞭解使用者對產品的評價,政府部門可以透過分析網民對某一事件、政策法規或社會現象的評論,實時瞭解大眾的態度。

17。 文字蘊含識別

文字蘊含識別(RTE,Recognizing Textual Entailment) 對一段文字中表示的事實進行推理(Text->Hypothesis),如需要知道一個句子中提到的事實是否被文件中前面的某個句子所蘊含。

18。 自動文摘

自動文摘(automatic summarizing或automatic abstracting) 將相同主題的若干文件的主要內容和含義自動歸納、提煉出來,形成摘要或縮寫。

透過自動文摘不同的實現方式將自動文摘分為文件的摘錄(extract)或文件的摘要(abstract)。摘錄透過提取文件中最重要的部分(找到若干句子或句子片段)來表示文字的大意,可能也會包含少量次要的部分進行文摘;摘要透過理解文字,描述了對文件內容的總結,未必直接包含文件內容的原句。

19。 資訊抽取

資訊抽取(information extraction) 又稱事件抽取(event extraction),指從文字中識別並抽取出特定的事件(event)或事實資訊,來解決5W(WHO WHEN WHERE WHY WHAT)以及HOW的問題(誰在何時何地由於什麼原因(對誰)做了什麼(如何做))。例如,從時事新聞報道中抽取出某一恐怖事件的基本資訊:時間、地點、事件製造者、受害人、襲擊目標、傷亡人數等;從經濟新聞中抽取出某些公司釋出的產品資訊:公司名稱、產品名稱、開發時間、某些效能指標等。

(1)資訊抽取與資訊檢索

資訊檢索主要是從海量文件集合中找到與使用者需求(一般透過關鍵詞表達)相關的文件列表,而資訊抽取則是希望直接從文字中獲得使用者感興趣的事實資訊。兩者也有密切的關係,資訊抽取系統通常以資訊檢索系統(如文字過濾)的輸出作為輸入,而資訊抽取技術又可以用來提高資訊檢索系統的效能。

(2)資訊抽取與問答系統

資訊抽取與問答系統也有密切的聯絡。一般而言,資訊抽取系統要抽取的資訊是明定的、事先規定好的,系統只是將抽取出來的事實資訊填充在給定的框架槽裡,而問答系統面對的使用者問題往往是隨機的、不確定的,而且系統需要將問題的答案生成自然語言句子,透過自然、規範的語句準確地表達出來,使系統與使用者之間形成一問一答的互動過程。

20。 問答系統

問答系統(QA,Question Answering System) :用自然語言方式提問,從資訊庫中檢索,提供既準確又切合主題的答案。

21。 機器翻譯

機器翻譯(MT,Machine Translation):在保留意義的情況下,把一種語言的文字轉換為另一種語言。機器翻譯作為NLP的起源,是NLP一直的研究目標,沒有最終解決,只有最新現狀(State of art)

標簽: 文字  語言  抽取  自然語言  文件