基於pytorch實現（多頭）自注意力

作者：由休提前事發表于繪畫時間：2022-03-23

我們介紹了注意力機制的原理以及實現的步驟

由於是基於點積實現的（還有其他實現方式，比如加的形式，大家可以自行了解），Q與K的維度一致。因此基於pytorch的實現並沒有什麼難度，直接上程式碼：

自注意力的程式碼實現

from

math

import

sqrt

import

torch

import

torch。nn

class

SelfAttention

（

。

Module

）：

dim_in

：

int

dim_k

：

int

dim_v

：

int

def

__init__

（

self

，

dim_in

，

dim_k

，

dim_v

）：

super

（

SelfAttention

，

self

）

。

__init__

（）

self

。

dim_in

self

。

dim_k

self

。

dim_v

self

。

linear_q

。

Linear

（

dim_in

，

dim_k

，

bias

False

）

# Q、K的維度一致

self

。

linear_k

。

Linear

（

dim_in

，

dim_k

，

bias

False

）

self

。

linear_v

。

Linear

（

dim_in

，

dim_v

，

bias

False

）

self

。

_norm_fact

sqrt

（

dim_k

）

# 為了規範Q@K的乘積的方差範圍

def

forward

（

self

，

）：

# x：（batch， n， dim_in） ——> （批次大小，時序長度，特徵維度）

batch

，

dim_in

。

shape

assert

dim_in

self

。

dim_in

self

。

linear_q

（

）

# batch， n， dim_k

self

。

linear_k

（

）

# batch， n， dim_k

self

。

linear_v

（

）

# batch， n， dim_v

dist

torch

。

bmm

（

，

。

transpose

（

，

））

self

。

_norm_fact

# batch， n， n

dist

torch

。

softmax

（

dist

，

dim

）

# batch， n， n

att

torch

。

bmm

（

dist

，

）

return

att

多頭自注意力的程式碼實現

我們介紹了多頭注意力需要計算多個頭，並且最後拼接起來乘以一個權重得到最後的結果，實際上，為了加快計算速度，我們可以使用一個大矩陣將Q、K、V並行地計算出來，然後透過改變形狀、和交換維度把多個頭的Q、K、V放到同一個batch中進行和單頭注意力相同的計算，最後再把多個頭的注意力向量拼接起來得到最後的值。

from

math

import

sqrt

import

torch

import

torch。nn

class

MultiHeadSelfAttention

（

。

Module

）：

dim_in

：

int

# input dimension

dim_k

：

int

# key and query dimension

dim_v

：

int

# value dimension

num_heads

：

int

# number of heads， for each head， dim_* = dim_* // num_heads

def

__init__

（

self

，

dim_in

，

dim_k

，

dim_v

，

num_heads

）：

super

（

MultiHeadSelfAttention

，

self

）

。

__init__

（）

assert

dim_k

num_heads

and

dim_v

num_heads

，

“dim_k and dim_v must be multiple of num_heads”

self

。

dim_in

self

。

dim_k

self

。

dim_v

self

。

num_heads

self

。

linear_q

。

Linear

（

dim_in

，

dim_k

，

bias

False

）

self

。

linear_k

。

Linear

（

dim_in

，

dim_k

，

bias

False

）

self

。

linear_v

。

Linear

（

dim_in

，

dim_v

，

bias

False

）

self

。

_norm_fact

sqrt

（

dim_k

num_heads

）

def

forward

（

self

，

）：

# x： tensor of shape （batch， n， dim_in）

batch

，

dim_in

。

shape

assert

dim_in

self

。

dim_in

self

。

num_heads

self

。

dim_k

# dim_k of each head

self

。

dim_v

# dim_v of each head

self

。

linear_q

（

）

。

reshape

（

batch

，

）

。

transpose

（

，

）

# （batch， nh， n， dk）

self

。

linear_k

（

）

。

reshape

（

batch

，

）

。

transpose

（

，

）

# （batch， nh， n， dk）

self

。

linear_v

（

）

。

reshape

（

batch

，

）

。

transpose

（

，

）

# （batch， nh， n， dv）

dist

torch

。

matmul

（

，

。

transpose

（

，

））

self

。

_norm_fact

# batch， nh， n， n

dist

torch

。

softmax

（

dist

，

dim

）

# batch， nh， n， n

att

torch

。

matmul

（

dist

，

）

# batch， nh， n， dv

att

。

transpose

（

，

）

。

reshape

（

batch

，

self

。

dim_v

）

# batch， n， dim_v

return

att

標簽： dim self batch Linear nh

上一篇:找設計師做什麼，你知道麼？

下一篇：一人一座城:常州

基於pytorch實現（多頭）自注意力

猜你喜歡

最強Local Vision Transformer：CSWin Transfomer

想打造一個神經網路，自動給黑白照片上色？這兒有一份超詳細教程

ROS與Arduino應用（1）——舵機的控制

深入理解Batch Normalization

深度訊號處理：利用卷積神經網路測量距離