如何設計一個演算法以區分一個短語是偏正片語還是一整個單詞?
作者:由 Eastdog 發表于 書法時間:2022-04-21
怎麼設計一個演算法讓計算機自動區分是偏正片語還是一整個單詞啊?
舉個例子
中國-銀行系統-奔潰
中國銀行-系統奔潰
我們如何才能識別與區分呢?
偶們現在就是靠詞庫排除,比如把中國銀行家,中國銀行業等來排除掉,就可以識別出“中國銀行”這個目標來。
但是希望有更好的方法
謝謝
提供一點機率統計上的思路。
首先請了解一下馬氏鏈(如果不瞭解的話),然後這個問題就變成一個隱馬氏鏈的識別問題。此時我們就需要一個足夠大的樣本庫,來學習一下每個詞出現的機率與條件機率。在此基礎上,並在這樣的條件下作判斷。
以上就是提供了思路,展開講太繁雜(沒錯就是懶),見笑。
這個例子的分辨應該不是分詞的問題吧,設計到上下文理解了~~
在語義上分析上應該叫有歧義~~
推薦 吳軍博士的《數學之美》,書中有一張節講用機率的方法解決分詞問題,淺顯易懂。書中講了很多數學在自然語言處理領悟的應用,好書。
上一篇:《於公案》並非山西于成龍
下一篇:園林景觀常用的材料,最全面的盤點