貝葉斯理論的精粹就在於,它完全而且完美的運用了你對一個理論的信念(prior belief)和你收集的資料(data或likelihood),從中得出結論(posterior belief),告訴你這個理論存在的機率或者這個理論模型引數的分
keras的實現很簡潔,fc+bn+glu同時實現,注意glu不是gelu,glu=x*sigmoid(x),實現的功能類似於LSTM中的門控機制自動進行特徵選擇(從這個層面上來看和注意力機制有異曲同工之妙),而gelu是參考 馬東什麼:關
先造個數據集:def fake_data(x_l, x_u, N, noise_level, b0, b1):xx = np
特徵的條件機率=(指定類下指定特徵出現的次數+alpha)/(指定類下所有特徵出現次數之和+類的可能取值個數*alpha)coef_: 是樸素貝葉斯對應的線性模型,其值和feature_log_prob相同class_count_: 訓練樣
扯得有點遠,我就是想說他們的應用點不同,在theoretical statistics上還是傾向於frequentist的,我在做probability比如brownian motion的時候,不可能把Bayesian帶進來因為這個dist
d) 參照先驗『 reference prior 』Bernardo[9]在 1979 年提出了這個概念,與Jeffreys’ 先驗不同,這種方法將引數區分為感興趣『 intrest 』引數和討厭『 nuisance 』引數,在推導後驗分佈
說到這個分佈意義下的共軛,必然離不開那個經典的貝葉斯推斷的公式:後驗 = 先驗 * 似然
我們透過計算第行的(其中是第行缺失資料的列,是第行未缺失資料的列),透過計算期望可以去預測缺失資料除此之外,計算也是很重要的,因為它可以幫助我們分辨outliers資訊形式假設,我們稱和是模型的時間引數(moment parameters)