”)print(word_li)示例2 NLTK最大熵模型庫實現詞性標註# coding:utf-8“”“NLTK的最大熵模型實現詞性標註”“”import nltkimport codecs# 事件生成器,1個分詞後的句子可以產生多個事件
(1)線性鏈條件隨機場的原始引數化形式分數:歸一化機率:其中,歸一項為:t為定義在邊上的特徵函式,通常取值0或1,依賴於兩個相鄰結點的狀態,λ為其權重
最後我們再討論一下特徵函式的感性上的意義,特徵函式本質上是一種規則,對於訓練好的模型而言,它可以看成一個規則的集合,每個規則在這個模型中的價值用權重來表示,這個價值可以理解為某個可能的輸出序列滿足這條規則獲得的分數
同理我們可以定義下限集(下極限集)設是一個集合列,稱為的下限集,記為
最大熵模型與邏輯迴歸定義特徵函式,其中g(x)為提取出每個x的特徵,輸出x特徵向量:將以上特徵函式代入到之前求出的最大熵模型中:上下同時除以得到等式:同理推導:我們發現邏輯迴歸其實就是最大熵模型在y=1時抽取x的特徵的一種情況,上一篇文章中
4這個定理也是定義2
Price 定理:設有兩個隨機變數服從二元高斯分佈:是滿足一定正則性條件的二元函式,則有:例子:-極化:(1)確定函式及其期望(2)函式求偏導(3)代入等式積分:當相關係數時,:-Square Device:(1)(2)(3)積分得:Pri
邏輯分佈[1]基本密度函式標準logistic分佈,期望方差特徵函式[2]重要性質1
最大熵原理是在所有滿足約束條件的模型中,選擇熵最大的那個模型,故得到目標函式為:通常地,我們會將最大值問題改寫為最小值問題,即1.2 經驗分佈與特徵函式給定一個訓練資料集,我們希望能借助最大熵原理從該資料集中學習到最好的分類模型
利用標準的分離變數法,可以得到的特徵函式(可以差一個任意常數因子):對於狄利克雷邊界條件,對於諾依曼邊界條件,相應的特徵值