注意力機制的權重分佈在機器翻譯這樣一個典型的序列到序列模型裡,生成一個輸出詞yj時,會用到第i個輸入詞對應的隱狀態hi以及對應的attention權重αij,如果只使用一個方向的RNN網路來計算隱狀態,那麼hi只包含了x0到xi的資訊,相當
而主要的區分點在於使用的decoder不同,這裡我就著重講一下tf.contrib.seq2seq.BeamSearchDecoder
py*更新:我後來瞭解到TensorFlow Seq2Seq函式從零開始對單詞embeddings進行訓練,因此我不會使用這些單詞向量,儘管它們仍然是很好的實踐*用TensorFlow建立Seq2Seq模型現在我們建立了資料集並生成了我們的
com/tensorflow/nmt/訓練-如何構建我們第一個 NMT 系統我們首先需要了解構建一個 NMT 模型具體程式碼的核心,我們會在圖 2 中更詳細地講解
事實上用序列標註是可以做,但效果通常沒有seq2seq的方式好,因為這個任務雖然是對齊的,但正確答案不止一個
encoder-decoder(編碼-解碼)指的則是seq2seq中的一種更細節一點的建模技術