您當前的位置:首頁 > 文化

知識圖譜-梳理20191224

作者:由 李龍 發表于 文化時間:2019-12-24

初步瞭解知識圖譜這塊,暫時梳理下,逐步深入每塊。

一 知識圖譜簡介

二 知識圖譜基本構建流程

三 知識圖譜應用

四 關鍵問題

五 成熟圖譜|開源工具

六 其他

一 知識圖譜簡介

1。1 知識圖譜由來

MU,語義網路,本體,知識圖譜。知識圖譜這塊事情早期就有,概念2012年穀歌提出後興起。

知識圖譜始於20世紀50年代,得益於Web的發展,更多的是資料層面。大致可分為三個階段:第一階段(1955-1977),起源階段,引文網路語義分析成為科學常用方法;第二階段(1977-2012),發展階段,語義網得到快速發展,“知識本體”成為一個重要的研究領域。第三階段(2012-現在),繁榮階段,谷歌提出KnowledgeGraph,知識圖譜正式命名。

2012年5月17日,谷歌釋出知識圖譜專案,並宣佈以此為基礎構建下一代智慧化搜尋引擎。該專案始於2010年穀歌收購Metawb公司,並籍此獲得了該公司的語義搜尋核心技術,其中的關鍵技術包括從網際網路的網頁中抽取出實體及其屬性資訊,以及實體間的關係。這些技術適用於解決與實體相關的智慧問答問題,由此創造出一種全新的資訊檢索模式。

https://www。

jianshu。com/p/1bbefef83

fa4

《知識圖譜的構建技術綜述》)

(《知識圖譜標準化白皮書(2019)》)

1。2 知識圖譜定義

MU,

知識圖譜就是由實體和關係組成的知識庫

,相關研究就是:圍繞如何(定義、抽取)實體和關係,如何利用這個知識庫。以下則是多個角度對知識圖譜的定義,覺得每個“是”句結構都表達了特定含義。

知識圖譜簡單來說是實體和關係構成的異質有向圖。知識圖譜是實現智慧化語義檢索的基礎和橋樑。

知識圖譜是一系列結構化資料的處理方法,它涉及知識的提取、表示、儲存、檢索等諸多技術。從淵源上講,它是知識表示與推理、資料庫、資訊檢索、自然語言處理等多種技術發展的融合。但傳統的知識處理方法,在實際的工程應用,特別是網際網路應用中,面臨實施成本高、技術週期長、熟悉該類技術的人才缺乏、基礎資料不足等諸多現實制約。實戰中的知識圖譜,需要充分利用成熟的工業技術,不拘泥於特定的工具和方法,特別是不盲目追求標準化、技術的先進性或者新穎性,以實際的業務出發,循序漸進推進工程的實施。

知識圖譜,是結構化的語義知識庫,用於以符號形式描述物理世界中的概念及其相互關係。其基本組成單位是“實體-關係-實體”三元組,以及實體及其相關屬性-值對,實體間透過關係相互聯結,構成網狀的知識結構。

透過知識圖譜,可以實現Web從網頁連結向概念連結轉變,支援使用者按主題而不是字串檢索,從而真正實現語義檢索。基於知識圖譜的搜尋引擎,能夠以圖形方式向用戶反饋結構化的知識,使用者不必瀏覽大量網頁,就可以準確定位和深度獲取知識。

定義包含三層含義,

1)知識圖譜本身是一個具有屬性的實體透過關係連結而成的網狀知識庫。從圖的角度來看,知識圖譜在本質上是一種概念網路,其中的節點表示物理世界的實體(或概念),而實體間的各種語義關係則構成網路中的邊。由此,知識圖譜是對物理世界的一種符號表達。

2)知識圖譜的研究價值在於,它是構建在當前Web基礎之上的一層覆蓋網路(overlaynetwork),藉助知識圖譜,能夠在Web網頁之上建立概念間的連結關係,從而以最小的代價將網際網路中積累的資訊組織起來,成為可以被利用的知識。

3)知識圖譜的應用價值在於,它能夠改變現有的資訊檢索方式,一方面透過推理實現概念檢索(相對於現有的字串模糊匹配方式而言);另一方面以圖形化方式向用戶展示經過分類整理的結構化知識,從而使人們從人工過濾網頁尋找答案的模式中解脫出來。

https://

blog。csdn。net/u01015984

2/article/details/88026675

《知識圖譜技術解剖》)

https://

cloud。tencent。com/devel

oper/article/1466916

《知識圖譜(一)-基本概念)

1。3 技術地圖

MU,在看過的圖中,最喜歡這個技術圖,主線清晰(資料-抽取-融合-計算推理-應用),外加(自然語言處理、儲存、分散式計算)三塊。

知識圖譜-梳理20191224

https://

blog。csdn。net/weixin_40

871455/article/details/84074450

《知識圖譜綜述及技術地圖概覽(智慧問答系統)》)

二 知識圖譜構建

知識圖譜的構建過程是一個迭代更新的過程,每一輪更新包括3個步驟:1)知識提取,即從各種型別的資料來源中提取出實體(概念)、屬性以及實體間的相互關係,在此基礎上形成本體化的知識表達;2)知識融合,在獲得新知識之後,需要對其進行整合,以消除矛盾和歧義,比如某些實體可能有多種表達,某個特定稱謂也許對應於多個不同的實體等;3)知識加工,對於經過融合的新知識,需要經過質量評估之後(部分需要人工參與甄別),才能將合格的部分加入到知識庫中,以確保知識庫的質量。新增資料之後,再進行知識推理、拓展現有知識、得到新知識。

知識圖譜-梳理20191224

http://www。

360doc。com/content/18/0

727/12/32762466_773589024。shtml

《知識圖譜構建流程》)

2。1 schema構建

MU,模式定義,我認為這一步是最重要的。首先,在可見範圍內,很難有一個包含一切的知識圖譜:實體有現實的也有抽象的,關係更是不同領域、不同角度不可羅列。其次,知識圖譜很大程度上是面向應用的或者基於實際問題。所以當進行知識圖譜工程時,首要工作就是根據場景抽象出模式:想要什麼樣的實體,想要什麼樣的關係。

事實上,模式是對知識的提煉,而且遵循預先給定的schema有助於知識的標準化,更利於後續處理。為知識圖譜構建schema相當於為其建立本體(Ontology)。最基本的本體包括概念、概念層次、屬性、屬性值型別、關係、關係定義域(Domain)概念集以及關係值域(Range)概念集。在此基礎上,可以額外新增規則(Rules)或公理(Axioms)來表示模式層更復雜的約束關係。面對如此龐大且領域無關的知識庫,即使是構建最基本的本體,也是非常有挑戰的。

Google等公司普遍採用的方法是自頂向下(Top-Down)和自底向上(Bottom-Up)相結合的方式。這裡,自頂向下的方式是指透過本體編輯器(Ontology Editor)預先構建本體。當然這裡的本體構建不是從無到有的過程,而是依賴於從百科類和結構化資料得到的高質量知識中所提取的模式資訊。

值得一提的是,Google知識圖譜的Schema是在其收購的Freebase的schema基礎上修改而得。Freebase的模式定義了Domain(領域),Type(類別)和Topic(主題,即實體)。每個Domain有若干Types,每個Type包含多個Topics且和多個Properties關聯,這些Properties規定了屬於當前Type的那些Topics需要包含的屬性和關係。定義好的模式可被用於抽取屬於某個Type或滿足某個Property的新實體(或實體對)。另一方面,自底向上的方式則透過上面介紹的各種抽取技術,特別是透過搜尋日誌和Web Table抽取發現的類別、屬性和關係,並將這些置信度高的模式合併到知識圖譜中。合併過程將使用類似實體對齊的對齊演算法。對於未能匹配原有知識圖譜中模式的類別、屬性和關係作為新的模式加入知識圖譜供人工過濾。自頂向下的方法有利於抽取新的例項,保證抽取質量,而自底向上的方法則能發現新的模式。兩者是互補的。

https://

blog。csdn。net/noter16/a

rticle/details/52856230/

《王昊奮-知識圖譜技術原理介紹》)

2。2 知識提取

2。2。1 知識提取簡介

知識提取,需要從不同結構的資料來源中提取知識,包括結構化資料來源、半結構化資料來源和非結構化資料來源。

在處理非結構化資料方面,這個過程可以理解為從自然語言文字中抽取指定型別的實體、關係、事件等事實資訊,並形成結構化資料輸出的文字處理技術。在識別實體的過程中可能會用到分詞、詞性標註,以及深度學習模型中需要用到分散式表達如詞向量。同時為了得到不同粒度的知識還可能需要提取文中的關鍵詞,獲取文章的潛在主題等。當用戶獲得實體後,則需要關注實體間的關係,我們稱為實體關係識別,有些實體關係識別的方法會利用句法結構來幫助確定兩個實體間的關係,因此在有些演算法中會利用依存分析或者語義解析。如果使用者不僅僅想獲取實體間的關係,還想獲取一個事件的詳細內容,那麼則需要確定事件的觸發詞並獲取事件相應描述的句子,同時識別事件描述句子中實體對應事件的角色。

在處理半結構化資料方面,主要的工作是透過包裝器學習半結構化資料的抽取規則。由於半結構化資料具有大量的重複性的結構,因此對資料進行少量的標註,可以讓機器學出一定的規則進而在整個站點下使用規則對同類型或者符合某種關係的資料進行抽取。最後當用戶的資料儲存在生產系統的資料庫中時,需要透過ETL工具對使用者生產系統下的資料進行重新組織、清洗、檢測最後得到符合使用者使用目的資料。

https://

blog。csdn。net/valada/ar

ticle/details/80892675

《概述知識圖譜在人工智慧中的應用》)

2。2。2 實體抽取

早期的實體抽取也稱為命名實體學習(namedentitylearning)或命名實體識別(namedentityrecognition),指的是從原始語料中自動識別出命名實體。由於實體是知識圖譜中的最基本元素,其抽取的完整性、準確率、召回率等將直接影響到知識庫的質量。因此,實體抽取是知識抽取中最為基礎與關鍵的一步。

實體抽取的方法分為3種:基於規則與詞典的方法、基於統計機器學習的方法以及面向開放域的抽取方法。基於規則的方法通常需要為目標實體編寫模板,然後在原始語料中進行匹配;基於統計機器學習的方法主要是透過機器學習的方法對原始語料進行訓練,然後再利用訓練好的模型去識別實體;面向開放域的抽取將是面向海量的Web語料。

《知識圖譜技術綜述》

https://

blog。csdn。net/qq_368129

90/article/details/98340330

2。2。3 關係抽取

關係抽取的目標是解決實體間語義連結的問題,早期的關係抽取主要是透過人工構造語義規則以及模板的方法識別實體關係。隨後,實體間的關係模型逐漸替代了人工預定義的語法與規則。但是仍需要提前定義實體間的關係型別。現在有面向開放域的資訊抽取框架(openinformationextraction,OIE),這是抽取模式上的一個巨大進步。但OIE方法在對實體的隱含關係抽取方面效能低下,因此部分研究者提出了基於馬爾可夫邏輯網、基於本體推理的深層隱含關係抽取方法。

知識圖譜綜述

https://

blog。csdn。net/muumian12

3/article/details/81746349

2。2。4 屬性抽取

屬性抽取主要是針對實體而言的,透過屬性可形成對實體的完整勾畫。由於實體的屬性可以看成是實體與屬性值之間的一種名稱性關係,因此可以將實體屬性的抽取問題轉換為關係抽取問題。比如基於規則與啟發式演算法的屬性抽取方法能夠從Wikipedia及WordNet的半結構化網頁中自動抽取相應的屬性名稱與屬性值,還可擴充套件為一套本體知識庫。實驗表明:該演算法的抽取準確率可達到95%。

大量的屬性資料主要存在於半結構化、非結構化的大規模開放域資料集中。抽取這些屬性的方法,一種是將上述從百科網站上抽取的結構化資料作為可用於屬性抽取的訓練集,然後再將該模型應用於開放域中的實體屬性抽取;另一種是根據實體屬性與屬性值之間的關係模式,直接從開放域資料集上抽取屬性。但是由於屬性值附近普遍存在一些限定屬性值含義的屬性名等,所以該抽取方法的準確率並不高。

知識圖譜綜述

https://

blog。csdn。net/muumian12

3/article/details/81746349

2。2。5 未來發展

知識提取的發展是從文字中抽取指定型別的實體、關係、事件等事實資訊到從海量資料中發現實體相關的資訊,並將其與現有知識庫進行整合。它的核心將有文字分析轉變為知識發現,任務不再是抽取而是發現。未來的知識提取可以分為四步:高價值資訊監測、知識連結、開放抽取、驗證整合。

高價值資訊監測的目標是降低資訊抽取難度,以知識為核心,要覆蓋所有知識而不是覆蓋所有文件。比如高價值的結構就有WikipediaInfobox,WebTable,List等,高價值的文字包括匹配特定模板的文字與概念定義句。

知識連結將自然語言文字中的資訊與知識庫中的條目進行連結,資訊抽取的結果需要與現有知識圖譜整合,識別不同資料來源中同一知識的冗餘表示,處理表示的歧義性,提升資訊抽取效能。(這部分內容在知識融合中也會有所介紹)

開放抽取是指新的抽取方法,傳統的人工標註語料+機器學習演算法模式無法滿足開放域開放語料下的資訊抽取。新的抽取方法包括按需抽取、開放抽取、知識監督開發抽取等。

驗證整合,是知識提取的最後一步,需要判斷多個數據源中同一條知識的可信度,判斷一條新的知識時候正確,是否與已有的知識一致。

未來知識提取的目標將是從海量資料中發現實體相關的資訊,並將其與現有知識庫整合,核心任務是高價值資訊檢測、知識連結、開放抽取、整合與驗證。

https://

wenku。baidu。com/view/50

727dfab90d6c85ed3ac62a。html

https://

blog。csdn。net/qq_270095

17/article/details/80082651

2。3 知識融合

2。3。1 知識融合簡介

知識融合是將從網路大資料公開的碎片化資料中獲取的多源異構語義多樣動態演化的知識,通過沖突檢測和一致性檢查對知識進行正確性判斷,去粗取精將驗證正確的知識透過對齊關聯,合併計算有機地組織成知識庫提供全面的知識共享的重要方法。

透過資訊抽取,實現了從非結構化和半結構化資料中獲取實體、關係以及實體屬性資訊的目標,然而,這些結果中可能包含大量的冗餘和錯誤資訊,資料之間的關係也是扁平化的,缺乏層次性和邏輯性,因此有必要對其進行清理和整合。知識融合包括兩部分內容:知識評估和實體連結。透過知識融合,可以消除概念的歧義,剔除冗餘和錯誤概念,從而確保知識的質量。

http://www。

doc88。com/p-58931456001

70。html

《面向網路大資料的知識融合方法綜述》

2。3。2 知識融合難點

知識融合的難點在於以下幾個方面:

分散,知識獨立自治的存在多個數據源中,我們很難只從一個數據源獲取知識,將不同來源的知識進行融合是一個問題。

異構,不同的知識資源使用不同知識結構和元資料。比如某些知識以三元組的方式進行儲存,我們無法保證,這些三元組的構成是完全一樣的。

冗餘,我們獲取的知識很多都是重複的,可能只是換了一種表達方式,但是意思都是相同的。

噪聲,知識提取之後得到的知識會有大量的錯誤與噪聲。

非完備,知識提取得到的知識僅僅覆蓋特定領域的高頻知識,其中大部分是常識知識庫。

中文知識的缺乏,現在已經有大規模的英文知識圖譜,但是大規模中文知識圖譜的工作相對缺乏。

知識融合可以分為兩步,一個是融合一個是驗證。融合充分利用現有知識庫,融合這些分散、冗餘和異構的知識,作為構建中文知識圖譜的出發點。驗證指對新加入知識圖譜的知識(如資訊抽取系統的結果,眾包標註)進行驗證,確保新知識不知識圖譜的一致性,持續更新中文知識圖譜。

https://

wenku。baidu。com/view/43

1eeff410661ed9ad51f3f6。html

《面向中文知識圖譜構建的知識融合與驗證》)

2。3。3 融合關鍵技術——實體連結

知識融合的方法之一是實體連結,透過實體連結我們可以將知識庫中沒有的知識進行補全,同時可以更好的理解文字中詞語的含義。

實體連結的具體實現技術有很多,其中比較基礎的是基於機率模型的實體連結。其中主要對實體知名度、實體的上下文分佈、實體的名字分佈三個機率進行處理與分析。

我們知道了實體的知名度、上下文機率、名字機率,融合這些資訊就可以進行判斷,將文字與實體進行連結。而如果我們能知道更多資訊,將更好的有助於我們進行實體連結,進而完成知識融合。比如,文章的主題、作者的知識領域、地理位置、作者的傾向性偏好等,但是精準度與構建成本之間需要權衡,可以在某些情況下,選擇更適合的資訊進行連結。

https://

wenku。baidu。com/view/43

1eeff410661ed9ad51f3f6。html

《面向中文知識圖譜構建的知識融合與驗證》)

2。3。4 知識驗證

知識圖譜構建不是一個靜態的過程,需要及時更新動態知識,加入新知識。需要判斷新知識是否是否正確,與已有知識是否一致。

對知識進行驗證的需要以下幾個資料

權威度,權威度高的資訊源更有可能出現正確的答案。

冗餘度,正確答案出現的可能性可能更高。(但是也有可能正確的答案出現的可能性更低)

多樣性,正確的答案會有不同的表示表達。

一致性,正確的答案應當不其它知識相容無衝突。

我們需要驗證現有知識與新知識的相容可能性機率。

具體的解決方法有馬爾科夫邏輯網路,將知識和知識之間的約束建模為邏輯規則,然後對這些規則賦予權重表示違反該條規則的代價。

或者使用基於MLN的知識驗證,所有隴述按邏輯規則相互連結,一條知識不當前知識圖譜的相容性取決於其違反邏輯規則的多少和重要性。

https://

wenku。baidu。com/view/43

1eeff410661ed9ad51f3f6。html

《面向中文知識圖譜構建的知識融合與驗證》

2。4 知識推理

2。4。1 知識推理簡介

知識推理則是在已有的知識庫基礎上進一步挖掘隱含的知識,從而豐富、擴充套件知識庫。在推理的過程中,往往需要關聯規則的支援。由於實體、實體屬性以及關係的多樣性,人們很難窮舉所有的推理規則,一些較為複雜的推理規則往往是手動總結的。對於推理規則的挖掘,主要還是依賴於實體以及關係間的豐富同現情況。知識推理的物件可以是實體、實體的屬性、實體間的關係、本體庫中概念的層次結構等。知識推理的流程如下圖所示:

知識圖譜-梳理20191224

2。4。2 知識推理技術介紹

知識推理的技術可以粗略地分為基於邏輯的推理和基於統計的推理。下面簡單介紹一下推理技術。

1)基於謂詞邏輯推理

一階謂詞邏輯建立在命題的基礎上,在一階謂詞邏輯中,命題被分解為個體和謂詞兩個部分。

2)基於統計推理

基於統計的推理主要分三類,實體關係學習方法(實體間關係)、型別推理方法(實體與概念間關係)、模式歸納方法(概念間關係)。

實體關係學習方法研究實體間關係,有潛在特徵模型與圖特徵模型。比如說,莫言獲得諾貝爾文學獎的一個可能解釋是他是一個有名的作家。

型別推理方法研究實體與概念間的關係,利用三元組主語或謂語所連線屬性的統計分佈以預測例項的型別,該方法可以用在任意單資料來源的知識圖譜,但是無法做到跨資料集的型別推理。

模式歸納方法研究概念間關係,主要有基於ILP的方法和基於ARM的方法。ILP結合了機器學習和邏輯程式設計技術,使得人們可以從例項和背景知識中獲得邏輯結論。ARM可以將關聯的規則進行挖掘,最出名的例子就是啤酒與尿布之間的關係。

推理的目的是得到更豐富的知識庫,關係挖掘可以將更多的關係展示出來,用語義連結實體,構建網路。關係挖掘主要分為以下三個方面:基於結構化實體的關係挖掘,基於語義的主題關聯挖掘,基於自由文字的確定關係挖掘

https://www。

jianshu。com/p/bd15e0f50

eb9

《知識圖譜技術解剖》

2。5 知識表示學習

表示學習旨在將研究物件的語義資訊表示為稠密低維表示向量;而知識表示學習則面向知識庫中的實體和關係進行表示學習;該技術可以在低維空間中高效計算實體和關係的語義聯絡,有效解決資料稀疏問題,使知識提取、融合、推理的效能得到顯著提升。透過將實體或關係投影到低維向量空間,能夠實現對實體和關係的語義資訊的表示,可以高效地計算實體、關係及其之間的複雜語義關聯。兩個物件距離越近則說明其語義相似度越高。表現學習的挑戰在於將知識圖譜嵌入到低維向量空間中。

知識表示學習有以下典型應用:

1)相似度計算,計算實體鍵的語義相似度;

2)知識圖譜補全,預測2個實體的關係,這一般稱為知識庫的連線預測,又稱為知識圖譜補全。

知識表示學習的主要優點在於:

1)顯著提升計算效率

a)知識庫的三元組表示實際就是基於獨熱表示的。此方法,計算複雜度高、可擴充套件性差。

b)表示學習得到的分散式表示,能夠高效地實現語義相似度計算等操作,顯著提升計算效率。

2)有效緩解資料稀疏

由於表示學習將物件投影到統一的低維空間中,使每個物件均對應一個稠密向量,從而緩解資料稀疏問題,體現在兩個方面:

i。每個物件的向量均為稠密有值的,可能度量任意物件之間的語義相似程式;

ii。將大量物件投影到統一空間的過程,能夠將高頻物件的語義資訊用於幫助低頻物件的語義表示,提高低頻物件的語義表示的精確性;

3)實現異質資訊融合

a)不同來源的異質資訊需要融合為整體,才能得到有效應用。

b)大量實體和關係在不同知識庫中的名稱不同。透過設計合理的表示學習模型,將不同來源的物件投影到同一個語義空間中,就能夠建立統一的表示空間,實現多知識庫的資訊融合。

知識表示難點

1)複雜關係建模:由於模型簡單,在大規模知識圖譜上效果明顯。但是也由於過於簡單,導致模型在處理知識庫的複雜關係時捉襟見肘;

2)多源資訊融合,在資訊融合方面,目前的發展還處於起步階段。

劉知遠 2016 知識表示學習研究進展計算機研究與發展

https://

blog。csdn。net/kisslotus

/article/details/54681839

三 知識圖譜應用

3。1 語義搜尋

知識圖譜-梳理20191224

3。2 問答系統

IBM在2011年研發了Watson問答系統。

3。3 生命科學領域

在生命科學領域,有兩個方面會應用到知識圖譜,一個是藥物發現,一個是醫療。

3。4 推薦系統

將知識圖譜作為輔助資訊引入到推薦系統中可以有效地解決傳統推薦系統存在的稀疏性和冷啟動問題,近幾年有很多研究人員在做相關的工作。

https://

blog。csdn。net/rocling/a

rticle/details/82354988

《如何將知識圖譜特徵學習應用到推薦系統》

3。5 電商領域

https://

mp。weixin。qq。com/s/MZE_

SXsNg6Yt4dz2fmB1sA

《阿里知識圖譜首次曝光:每天千萬級攔截量,億級別全量智慧稽核》

https://

baijiahao。baidu。com/s?

id=1610282079138678790

《為電商而生的知識圖譜,如何感應使用者需求》

https://

baijiahao。baidu。com/s?

id=1612268711670314270&wfr=spider&for=pc

《二手電商知識圖譜》

3。6 金融領域

https://www。

jianshu。com/p/3c5f84496

5bf

《智慧升級:知識圖譜在金融核心場景中的應用

https://

blog。csdn。net/sunleiz/a

rticle/details/87889449

《知識圖譜在金融領域中的預測類應用》

3。7 社交領域-圖分析

列舉一些我們常用的圖演算法:

圖遍歷:廣度優先遍歷、深度優先遍歷

最短路徑查詢: Dijkstra(迪傑斯特拉演算法)、Floyd(弗洛伊德演算法)

路徑探尋:給定兩個或多個節點,發現它們之間的關聯關係

權威節點分析:PageRank演算法

族群發現:最大流演算法

相似節點發現:基於節點屬性、關係的相似度演算法

其中,權威節點分析做過社交網路分析的人應該都知道,可以用來做社交網路裡的權威人物分析,我們在創投知識圖譜中用來做權威投資機構的發現。族群發現演算法一般用來在社交網路中主題社群的發現,在這裡我們同樣可以用來識別企業知識圖譜中的派系(阿里系、騰訊系)。相似節點發現應用就更加廣泛了,在企業知識圖譜中可以做相似企業的發現,這裡有個很重要的實際應用場景,可以利用相似企業進行精準的獲客營銷。

https://

blog。csdn。net/zourzh123

/article/details/81011008

《自然語言處理之知識圖譜》

四 關鍵問題

4。1 知識表示

知識表示研究怎樣用計算機符號來表示人腦中的知識,以及怎樣透過符號之間的運算來模擬人腦的推理過程。

知識圖譜的離散式表示:

RDF、RDF Graph、RDFS、RDF的序列化格式、OWL、OWL extends RDF Schema、SPARQL、JSON-LD(資料交換格式)、RDFa HTML5 MicroData(在網頁中嵌入語義資料)、

知識圖譜的分散式表示:

KG Embedding

https://

blog。csdn。net/sinat_294

85667/article/details/81156588

《知識圖譜(Knowledge Graph, KG)(王昊奮老師-課程學習筆記)》

4。2 實體識別

在深度學習之前,應用最多的演算法就是條件隨機場CRF,對一個單詞序列進行標註。深度學習推廣後,嘗試RNN、LSTM的序列標註,最近出現的BiRNN-CRF好像效果不錯(廣義的思路:深度學習獲得相關特徵,送入傳統機器學習)。

針對具體的人名、地名、機構名、時間等的識別,已經有一些包可以直接實現,但是具體到相關業務時,這些包能力有限,根本不能直接拿來就用,還需要自己實現相關的算。

4。3 三元組抽取

三元組抽取也可以在實體抽取的基礎上進行關係的推理,給關係的成立打個評分。總之,有監督的演算法一般是把關係的抽取轉換成一個分類問題。具體還可以使用一些遠端監督+注意力機制等方法,包括單詞級別的向量表示、句子級別的向量表示等。

4。4 實體對齊

對於實體消歧,其主要的思路就是計算實體之間的相似度,透過相似度的排名來判斷實體是否可能重合。具體的方法,比如,向量空間法(VSM: Vector Space Model)把每個實體表示成一個低維、稠密的向量,透過向量的餘弦相似度來計算相似度距離。至於如何把一個實體表示成一個向量,可以利用實體的上下文資訊、描述資訊等,利用word2vector等方法把實體表示成一個向量

4。5 知識補全

對於知識補全,其主要思路其實也可以利用表示學習的方法,把頭尾實體以及關係表示成低維、稠密的向量,然後再透過相關的評分函式進行排名。具體可以參考《基於知識圖譜推理的關係推演》

https://

cloud。tencent。com/devel

oper/news/311482

《詳細的知識圖譜構建流程》

4。6 知識圖譜儲存

知識圖譜是基於圖的資料結構,它的儲存方式主要有兩種形式:RDF儲存格式和圖資料庫(Graph Database)。

https://www。

cnblogs。com/ibook360/p/

7249132。html

4。7 知識推理

簡單而言,推理是指基於已知事實推出未知的事實的計算過程。

知識圖譜-梳理20191224

https://

blog。csdn。net/sinat_294

85667/article/details/81156588

《知識圖譜(Knowledge Graph, KG)(王昊奮老師-課程學習筆記)》

五 成熟圖譜|開源技術

六 其他

6。1 知識圖譜有哪些值得研究的方向

知乎問答

https://www。

zhihu。com/question/3575

18645

標簽: 知識  圖譜  實體  抽取  關係