2 計算公式詳解有些突兀,不著急,接下來我們看看self-attention的公式長什麼樣子:公式1此公式在論文《attention is all your need》中出現,拋開Q、K、V與dk不看,則最開始的self-attention
這個區域性特徵和先前工作固定大小不同,本文采取對每個點附近取一個高斯分佈(但是權重沒變,我咋感覺就像畫個圓呢):或許這個公式裡應該寫作平方~之後每個 Q 就只與它附近小區域內的 K / V 做相關性操作:GNA 為 Gaussian Nei
然後我們繞了個大圈又回到了幾十年前的MLP:CNN和RNN的提出本來是將領域的知識作為inductive bias,融入到MLP之中,以加速深度學習在CV和NLP等特定領域的落地,我們現在資料量大了,計算資源強了,錢包鼓了,桌子一掀——要什
需要特別注意的是
這是2017年NIPS上的一篇做動作識別的論文,作者提出了second-order pooling的低秩近似attentional pooling,用來代替CNN網路結構中最後pooling層常用的mean pooling或者max poo
2.2 Graph PoolingPooling layer讓CNN結構能夠減少引數的數量【只需要卷積核內的引數】,從而避免了過擬合,為了使用CNNs,學習GNN中的pool操作是很有必要的,Graph pool的方法主要為三種:topol
unsqueeze(-1),landmark_mask)landmarks=torch
feed_forword(multi_head2_result)return decode_result3.6 Transformer層實現def transformer(self):x_train_data_param = tf
tf.nn.seq2seq.embedding_attention_seq2seq# T代表time_steps, 時序長度defembedding_attention_seq2seq(encoder_inputs,# [T, batch_
所以一個體現attention機制執行的圖示如下:所以$C$就不單單是$x1,x2,x3$簡單的encoder,而是成為了各個元素按其重要度加權求和得到的
Method(1)Overview這裡的Base-model用的是encoder-distiller-decoder的結構,文中沒用給具體結構,只知道encoder用了dilated residual network,distiller就是
知識點概念辨析:覺醒(arousal)與選擇性注意(selective attention)注意的型別:按照驅動來源分類有意注意(voluntary attention):目標驅動/自上而下反射性注意(reflective attentio
更新mask變為soft:renorm的係數變為soft:然後partial convolution 的公式可以改寫為:Bidirectional attention map文章提出在decoder的階段也將mask作為額外資訊進行輸入,這
我們以下圖紅色畫素點為例,看看它奇幻漂流的過程(圖片來自於該篇論文作者之一王井東):在得到目標區域表示後,紅色畫素點和object regions都做了一個變換(transform, 文中統一用1x1 conv + BN + ReLU實現)
利用Attention網路對一個使用者的安裝的APPName列表編碼後透過一個全連線的分類層輸出最終評分結果,網路結構如下:透過簡單的Attention網路訓練的APPList模型相比1中的FTRL模型效果要好很多,從AUC看可以提高約4
迴歸問題本身,我不想透過手動調節各個任務權重的方式來調整各個任務對embedding的影響(各個任務的NN網路是獨立的),所以增加了一個gating network來自動學習各個任務重要性,這個重要性應該類似於手動調整各個任務的loss權重
get_attn_cam()
不過作者說是時間上下文資訊帶來的提升【這個地方不是很明白,attention和temporal context的關係,attention block只使用fc層,如何引入temporal context】最後比較了不同的光流提取方法的速度,