日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

pytorch 实现transformer

發(fā)布時間:2025/4/5 71 豆豆
生活随笔 收集整理的這篇文章主要介紹了 pytorch 实现transformer 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

transformer理論部分見機器學習筆記:Transformer_劉文巾的博客-CSDN博客

1 導入庫

import math import torch import numpy as np import torch.nn as nn import torch.optim as optim import torch.utils.data as Data

2?數(shù)據(jù)集處理

?S: decoder輸入的起始符號
?E: decoder輸出的終止符號
?P: 出現(xiàn)不等長的sequence的時候,用來補長

# S: Symbol that shows starting of decoding input # E: Symbol that shows endng of decoding output# P: Symbol that will fill in blank sequence # if current batch data size is short than time stepssentences = [# enc_input dec_input dec_output['ich mochte ein bier', 'S i want a beer .', 'i want a beer . E'],['ich mochte ein cola', 'S i want a coke .', 'i want a coke . E'] ]#encoder input和decoder input就不用說了,分別是transformer中encoder和decoder的輸入 #decoder output就是我們理論上需要輸出的東西(ground truth)(預(yù)測的句子和這個進行比對,算loss)#這里的輸入數(shù)據(jù)集只是兩對英德句子,每個字的索引(vocab)也是手動編碼上去的 src_vocab = {'P' : 0, 'ich' : 1, 'mochte' : 2, 'ein' : 3, 'bier' : 4, 'cola' : 5} # Padding Should be Zero #每一個batch里面的句子長度是一樣的,那么不足的部分就需要補Paddingsrc_vocab_size = len(src_vocab)tgt_vocab = {'P' : 0, 'i' : 1, 'want' : 2, 'a' : 3, 'beer' : 4, 'coke' : 5, 'S' : 6, 'E' : 7, '.' : 8}idx2word = {i: w for i, w in enumerate(tgt_vocab)} #idx2word 鍵值是數(shù)字,value是對應(yīng)的英文單詞tgt_vocab_size = len(tgt_vocab)src_len = 5 # enc_input max sequence length #encoder 輸入的句子的長度(不足的部分補padding)tgt_len = 6 # dec_input(=dec_output) max sequence length #decoder輸出的目標句子的長度(算上起始符S和終止符E之后)

3?transformer的參數(shù)

# Transformer Parameters d_model = 512 #每一個詞的 word embedding 用多少維表示 #(包括positional encoding應(yīng)該用多少維表示,因為這兩個要維度相加,應(yīng)該是一樣的維度)d_ff = 2048 # FeedForward dimension #forward線性層變成多少維 #(d_model->d_ff->d_model)d_k = d_v = 64 # dimension of K(=Q), V #K,Q,V矩陣的維度 #K和Q一定是一樣的,因為要K乘Q的轉(zhuǎn)置 #V不一定,這里我們認為是一樣的''' 換一種說法,就是我在進行self-attention的時候, 從input(加了位置編碼之后的input)線性變換之后的三個向量 K,Q,V的維度 '''n_layers = 6 #encoder和decoder各有多少層n_heads = 8 #multi-head attention有幾個頭

4?數(shù)據(jù)預(yù)處理

將encoder_input、decoder_input和decoder_output進行id化

def make_data(sentences):enc_inputs, dec_inputs, dec_outputs = [], [], []for i in range(len(sentences)):#對于輸入的每一句話enc_input = [src_vocab[n] for n in sentences[i][0].split()]# 每一次生成這一行sentence中encoder_input對應(yīng)的id編碼for _ in range(src_len-len(enc_input)):enc_input.append(0)#encoder_input 補長dec_input = [tgt_vocab[n] for n in sentences[i][1].split()]# 每一次生成這一行sentence中decoder_input對應(yīng)的id編碼for _ in range(tgt_len-len(dec_input)):dec_input.append(0)#decoder_input補長dec_output = [tgt_vocab[n] for n in sentences[i][2].split()]# 每一次生成這一行sentence中decoder_output對應(yīng)的id編碼for _ in range(tgt_len-len(dec_output)):dec_output.append(0)#decoder_output補長#分別對encoder-input、decoder-input、decoder-output進行處理,分別放到一個list里面enc_inputs.extend(enc_input)dec_inputs.extend(dec_input)dec_outputs.extend(dec_output)return torch.LongTensor(enc_inputs), torch.LongTensor(dec_inputs), torch.LongTensor(dec_outputs) #一定要是LongTensorenc_inputs, dec_inputs, dec_outputs = make_data(sentences)print(enc_inputs,'\n', dec_inputs,'\n', dec_outputs) ''' tensor([[1, 2, 3, 4, 0],[1, 2, 3, 5, 0]]) tensor([[6, 1, 2, 3, 4, 8],[6, 1, 2, 3, 5, 8]]) tensor([[1, 2, 3, 4, 8, 7],[1, 2, 3, 5, 8, 7]]) '''

5 構(gòu)建dataloader

要使用pytorch的dataloader,有以下兩種構(gòu)造方法
? ? 第一種方法——構(gòu)造MyDataSet類,我們需要自己實現(xiàn)__len__方法和__getitem__方法
? ? 第二種方法 使用TensorDateset

具體可見?pytorch筆記:Dataloader_劉文巾的博客-CSDN博客

5.1 MyDataSet

class MyDataSet(Data.Dataset):def __init__(self, enc_inputs, dec_inputs, dec_outputs):super(MyDataSet, self).__init__()self.enc_inputs = enc_inputsself.dec_inputs = dec_inputsself.dec_outputs = dec_outputsdef __len__(self):return self.enc_inputs.shape[0]#有幾個sentencedef __getitem__(self, idx):return self.enc_inputs[idx], self.dec_inputs[idx], self.dec_outputs[idx]#根據(jù)索引找encoder_input,decoder_input,decoder_outputloader = Data.DataLoader(MyDataSet(enc_inputs, dec_inputs, dec_outputs), batch_size=2, shuffle=True)for step,(b_e_i,b_d_i,b_d_o) in enumerate(loader):print(b_e_i,'\n',b_d_i,'\n',b_d_o) ''' tensor([[1, 2, 3, 4, 0],[1, 2, 3, 5, 0]]) tensor([[6, 1, 2, 3, 4, 8],[6, 1, 2, 3, 5, 8]]) tensor([[1, 2, 3, 4, 8, 7],[1, 2, 3, 5, 8, 7]]) '''

5.2 TensorDataset

torch_dataset=Data.TensorDataset(enc_inputs, dec_inputs, dec_outputs)loader2=Data.DataLoader(dataset=torch_dataset,batch_size=2,shuffle=True)for step,(b_e_i,b_d_i,b_d_o) in enumerate(loader2):print(b_e_i,'\n',b_d_i,'\n',b_d_o) ''' tensor([[1, 2, 3, 5, 0],[1, 2, 3, 4, 0]]) tensor([[6, 1, 2, 3, 5, 8],[6, 1, 2, 3, 4, 8]]) tensor([[1, 2, 3, 5, 8, 7],[1, 2, 3, 4, 8, 7]]) '''

6 Transformer結(jié)構(gòu) (總體)

我改變一下順序,先看一下總體的Transformer框架

class Transformer(nn.Module):def __init__(self):super(Transformer, self).__init__()self.encoder = Encoder().cuda()self.decoder = Decoder().cuda()self.projection = nn.Linear(d_model, tgt_vocab_size, bias=False).cuda() #對decoder的輸出轉(zhuǎn)換維度, #從隱藏層維數(shù)->輸出詞典大小(選取概率最大的那一個,作為我們的預(yù)測結(jié)果)def forward(self, enc_inputs, dec_inputs):''' enc_inputs維度:[batch_size, src_len] 對encoder-input,我一個batch中有batch_size個sequence,一個sequence有src_len個字dec_inputs: [batch_size, tgt_len] 對decoder-input,我一個batch中有batch_size個sequence,一個sequence有tgt_len個字'''enc_outputs, enc_self_attns = self.encoder(enc_inputs) # enc_outputs: [batch_size, src_len, d_model], # d_model是每一個字的word embedding長度"""enc_self_attns: [n_layers, batch_size, n_heads, src_len, src_len] 注意力矩陣,對encoder和decoder,每一層,每一句話,每一個頭,每兩個字之間都有一個權(quán)重系數(shù), 這些權(quán)重系數(shù)組成了注意力矩陣 之后的dec_self_attns同理,當然decoder還有一個decoder-encoder的注意力矩陣"""dec_outputs, dec_self_attns, dec_enc_attns = self.decoder(dec_inputs, enc_inputs, enc_outputs) # dec_outpus: [batch_size, tgt_len, d_model], #dec_self_attns: [n_layers, batch_size, n_heads, tgt_len, tgt_len], #dec_enc_attn: [n_layers, batch_size, tgt_len, src_len]dec_logits = self.projection(dec_outputs) #將輸出的維度,從 [batch_size, tgt_len, d_model]變成[batch_size, tgt_len, tgt_vocab_size] # dec_logits: [batch_size, tgt_len, tgt_vocab_size]return dec_logits.view(-1, dec_logits.size(-1)), enc_self_attns, dec_self_attns, dec_enc_attns ''' dec_logits view了之后的維度是 [batch_size * tgt_len, tgt_vocab_size],可以理解為, 一個長句子,這個句子有 batch_size*tgt_len 個單詞. 每個單詞用 tgt_vocab_size 維表示,表示這個單詞為目標語言各個單詞的概率,取概率最大者為這個單詞的翻譯 '''#Transformer 主要就是調(diào)用 Encoder 和 Decoder。最后返回

7 Encoder 結(jié)構(gòu)

7.1 Encoder結(jié)構(gòu)整體

nn.Embedding原理可見?pytorch 筆記: torch.nn.Embedding_劉文巾的博客-CSDN博客

class Encoder(nn.Module):def __init__(self):super(Encoder, self).__init__()self.src_emb = nn.Embedding(src_vocab_size, d_model) #對encoder的輸入的每個單詞進行詞向量計算(src_vocab_size個詞,每個詞d_model的維度)self.pos_emb = PositionalEncoding(d_model)#計算位置向量self.layers = nn.ModuleList([EncoderLayer() for _ in range(n_layers)])#將6個EncoderLayer組成一個moduledef forward(self, enc_inputs):'''enc_inputs: [batch_size, src_len]'''enc_outputs = self.src_emb(enc_inputs) #對每個單詞進行詞向量計算#enc_outputs [batch_size, src_len, d_model]enc_outputs = self.pos_emb(enc_outputs.transpose(0, 1)).transpose(0, 1) #添加位置編碼# enc_outputs [batch_size, src_len, d_model]enc_self_attn_mask = get_attn_pad_mask(enc_inputs, enc_inputs) # enc_self_attn: [batch_size, src_len, src_len]#計算得到encoder-attention的pad martixenc_self_attns = []#創(chuàng)建一個列表,保存接下來要返回的字-字attention的值,不參與任何計算,供可視化用for layer in self.layers:# enc_outputs: [batch_size, src_len, d_model]# enc_self_attn: [batch_size, n_heads, src_len, src_len]enc_outputs, enc_self_attn = layer(enc_outputs, enc_self_attn_mask)enc_self_attns.append(enc_self_attn)#再傳進來就不用positional decoding#記錄下每一次的attentionreturn enc_outputs, enc_self_attns#使用 nn.ModuleList() 里面的參數(shù)是列表,列表里面存了 n_layers 個 Encoder Layer#由于我們控制好了 Encoder Layer 的輸入和輸出維度相同,所以可以直接用個 for 循環(huán)以嵌套的方式, #將上一次 Encoder Layer 的輸出作為下一次 Encoder Layer 的輸入

7.2?positional encoding

buffer和parameter部分可見pytorch筆記 pytorch模型中的parameter與buffer_劉文巾的博客-CSDN博客

class PositionalEncoding(nn.Module):def __init__(self, d_model, dropout=0.1, max_len=5000):super(PositionalEncoding, self).__init__()self.dropout = nn.Dropout(p=dropout)#max_len (一個sequence的最大長度)pe = torch.zeros(max_len, d_model) #pe [max_len,d_model]position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1) #position [max_len,1]div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model)) div_term:[d_model/2] #e^(-i*log10000/d_model)=10000^(-i/d_model) #d_model為embedding_dimension#兩個相乘的維度為[max_len,d_model/2] pe[:, 0::2] = torch.sin(position * div_term)pe[:, 1::2] = torch.cos(position * div_term) #計算position encoding #pe的維度為[max_len,d_model],每一行的奇數(shù)偶數(shù)分別取sin和cos(position * div_term)里面的值pe = pe.unsqueeze(0).transpose(0, 1) #維度變成(max_len,1,d_model), #所以直接用pe=pe.unsqueeze(1)也可以self.register_buffer('pe', pe) #放入buffer中,參數(shù)不會訓練 #因為無論是encoder還是decoder,他每一個字的維度都是d_model #同時他們的位置編碼原理是一樣的 #所以一個sequence中所需要加上的positional encoding是一樣的。 #所以只需要存一個pe就可以了 #同時pe是固定的參數(shù),不需要訓練 #后續(xù)代碼中,如果要使用位置編碼,只需要self.pe即可,因為pe已經(jīng)注冊在buffer里面了def forward(self, x):'''x: [seq_len, batch_size, d_model]'''x = x + self.pe[:x.size(0), :,:] #選取和x一樣維度的seq_length,將pe加到x上return self.dropout(x)

7.3?get-attention-pad-mask

#由于在 Encoder 和 Decoder 中都需要進行 mask 操作, #因此就無法確定這個函數(shù)的參數(shù)中 seq_len 的值, #如果是在 Encoder 中調(diào)用的,seq_len 就等于 src_len #如果是在 Decoder 中調(diào)用的,seq_len 就有可能等于 src_len, #也有可能等于 tgt_len(因為 Decoder 有兩個attention模塊,兩次 mask) #src_len 是在encoder-decoder中的mask #tgt_len是decoder中的maskdef get_attn_pad_mask(seq_q, seq_k): #對于seq_q中的每一個元素,它都會和seq_k中的每一個元素有著一個相關(guān)聯(lián)系數(shù),這個系數(shù)組成一個矩陣: #但是因為pad的存在,pad的這些地方是不參與我們attention的計算的 #那么就是我們這里要返回的東西就是輔助得到哪些位是需要pad的 #pad的位置標記上True'''seq_q: [batch_size, seq_len]seq_k: [batch_size, seq_len]seq_len could be src_len or it could be tgt_lenseq_len in seq_q and seq_len in seq_k maybe not equal'''batch_size, len_q = seq_q.size()batch_size, len_k = seq_k.size()pad_attn_mask = seq_k.data.eq(0).unsqueeze(1) #擴展一個維度,因為attention_matrix是三維的 # pad_attn_mask [batch_size, 1, len_k] #seq_q:[[1,2,3,4,0],[1,2,4,5,0]] ->pad_attn_mask [[F,F,F,F,T],[F,F,F,F,T]]#通過seq_k.data.eq(0),判斷哪些位是pad(pad的編碼為0) #舉個例子,輸入為 seq_data = [1, 2, 3, 4, 0],seq_data.data.eq(0) #就會返回 [False, False, False, False, True]return pad_attn_mask.expand(batch_size, len_q, len_k) #對于每一個batch_size對應(yīng)的一行,都擴充為len_q行 # [batch_size, len_q, len_k]''' seq_q=torch.Tensor([[1,2,3,4,0],[1,2,4,5,0]] ) print(seq_q.data.eq(0).unsqueeze(1)) print(seq_q.data.eq(0).unsqueeze(1).expand(2,5,5) ) '''

解釋一下這里expand之后矩陣的意思,以及為什么每一行是一樣的

?1amChinesepadding
FALSEFALSEFALSETRUE
FALSEFALSEFALSETRUE
FALSEFALSEFALSETRUE
FALSEFALSEFALSETRUE
FALSEFALSEFALSETRUE

假設(shè)我們用英文翻譯中文。那么我們預(yù)測每一個中文字的時候,需要每個英文單詞的權(quán)重。

這個權(quán)重就是之后attention matrix每一個元素里面的東西。

所以矩陣的大小是(len_q,len_k)

而我們這個函數(shù)做的是輔助attention matrix,知道哪些位是需要padding的,哪些是不需要的。所以維度需要和attention matrix一致。

7.4 Encoder Layer(整體)

class EncoderLayer(nn.Module):def __init__(self):super(EncoderLayer, self).__init__()self.enc_self_attn = MultiHeadAttention() #多頭注意力機制self.pos_ffn = PoswiseFeedForwardNet() #提取特征def forward(self, enc_inputs, enc_self_attn_mask):'''enc_inputs: [batch_size, src_len, d_model]enc_self_attn_mask: [batch_size, src_len, src_len]'''enc_outputs, attn = self.enc_self_attn(enc_inputs, enc_inputs, enc_inputs, enc_self_attn_mask) # enc_outputs: [batch_size, src_len, d_model], #attn: [batch_size, n_heads, src_len, src_len] 每一個頭一個注意力矩陣# enc_inputs to same Q,K,V # enc_inputs乘以WQ,WK,WV生成QKV矩陣 ''' 為什么傳三個? 因為這里傳的是一樣的 但在decoder-encoder的mulit-head里面 我們需要的decoder input ,encoder output, encoder output 所以為了使用方便,我們在定義enc_self_atten函數(shù)的時候就定義的是有三個形參的 '''enc_outputs = self.pos_ffn(enc_outputs) # enc_outputs: [batch_size, src_len, d_model] #輸入和輸出的維度是一樣的return enc_outputs, attn #將上述組件拼起來,就是一個完整的 Encoder Layer

7.4.1?Multihead attention

class MultiHeadAttention(nn.Module):def __init__(self):super(MultiHeadAttention, self).__init__()self.W_Q = nn.Linear(d_model, d_k * n_heads, bias=False)self.W_K = nn.Linear(d_model, d_k * n_heads, bias=False)self.W_V = nn.Linear(d_model, d_v * n_heads, bias=False) #三個矩陣,分別對輸入進行三次線性變化self.fc = nn.Linear(n_heads * d_v, d_model, bias=False)#變換維度def forward(self, input_Q, input_K, input_V, attn_mask):'''input_Q: [batch_size, len_q, d_model]input_K: [batch_size, len_k, d_model]input_V: [batch_size, len_v(=len_k), d_model]attn_mask: [batch_size, seq_len, seq_len]'''residual, batch_size = input_Q, input_Q.size(0)Q = self.W_Q(input_Q).view(batch_size, -1, n_heads, d_k).transpose(1,2) K = self.W_K(input_K).view(batch_size, -1, n_heads, d_k).transpose(1,2) V = self.W_V(input_V).view(batch_size, -1, n_heads, d_v).transpose(1,2) #生成Q,K,V矩陣''' input_Q: [batch_size, len_q, d_model] (W)-> [batch_size, len_q,d_k * n_heads] (view)->[batch_size, len_q,n_heads,d_k] (transpose)-> [batch_size,n_heads, len_q,d_k ] '''attn_mask = attn_mask.unsqueeze(1).repeat(1, n_heads, 1, 1) ''' attn_mask: [batch_size, seq_len, seq_len] (unsqueeze)->[batch_size, 1, seq_len, seq_len] (repeat)->[batch_size, n_heads, seq_len, seq_len] '''context, attn = ScaledDotProductAttention()(Q, K, V, attn_mask) # context: [batch_size, n_heads, len_q, d_v], #attn: [batch_size, n_heads, len_q, len_k]context = context.transpose(1, 2).reshape(batch_size, -1, n_heads * d_v) # context: [batch_size, len_q, n_heads * d_v]output = self.fc(context) # [batch_size, len_q, d_model]return nn.LayerNorm(d_model).cuda()(output + residual), attn #Add & Norm ''' 完整代碼中一定會有三處地方調(diào)用 MultiHeadAttention(),Encoder Layer 調(diào)用一次, 傳入的 input_Q、input_K、input_V 全部都是 enc_inputs; Decoder Layer 中兩次調(diào)用,第一次都是decoder_inputs;第二次是兩個encoder_outputs和一個decoder——input '''

7.4.2?Scaled-Dot-Product-Attention

class ScaledDotProductAttention(nn.Module):def __init__(self):super(ScaledDotProductAttention, self).__init__()def forward(self, Q, K, V, attn_mask):'''Q: [batch_size, n_heads, len_q, d_k]K: [batch_size, n_heads, len_k, d_k]V: [batch_size, n_heads, len_v(=len_k), d_v]attn_mask: [batch_size, n_heads, seq_len, seq_len]'''scores = torch.matmul(Q, K.transpose(-1, -2)) / np.sqrt(d_k) # scores : [batch_size, n_heads, len_q, len_k]scores.masked_fill_(attn_mask, -1e9) #attn_mask所有為True的部分(即有pad的部分),scores填充為負無窮,也就是這個位置的值對于softmax沒有影響attn = nn.Softmax(dim=-1)(scores) #attn: [batch_size, n_heads, len_q, len_k] #對每一行進行softmaxcontext = torch.matmul(attn, V) # [batch_size, n_heads, len_q, d_v]return context, attn ''' 這里要做的是,通過 Q 和 K 計算出 scores,然后將 scores 和 V 相乘,得到每個單詞的 context vector第一步是將 Q 和 K 的轉(zhuǎn)置相乘沒什么好說的,相乘之后得到的 scores 還不能立刻進行 softmax, 需要和 attn_mask 相加,把一些需要屏蔽的信息屏蔽掉, attn_mask 是一個僅由 True 和 False 組成的 tensor,并且一定會保證 attn_mask 和 scores 的維度四個值相同(不然無法做對應(yīng)位置相加)mask 完了之后,就可以對 scores 進行 softmax 了。然后再與 V 相乘,得到 context '''

7.4.3?PoswiseFeedForwardNet

用來提取特征的

class PoswiseFeedForwardNet(nn.Module):def __init__(self):super(PoswiseFeedForwardNet, self).__init__()self.fc = nn.Sequential(nn.Linear(d_model, d_ff, bias=False),nn.ReLU(),nn.Linear(d_ff, d_model, bias=False))def forward(self, inputs):'''inputs: [batch_size, seq_len, d_model]'''residual = inputsoutput = self.fc(inputs)return nn.LayerNorm(d_model).cuda()(output + residual) # [batch_size, seq_len, d_model]#也有殘差連接和layer normalization#這段代碼非常簡單,就是做兩次線性變換,殘差連接后再跟一個 Layer Norm

8?decoder結(jié)構(gòu)

8.1 decoder 結(jié)構(gòu)(整體)

class Decoder(nn.Module):def __init__(self):super(Decoder, self).__init__()self.tgt_emb = nn.Embedding(tgt_vocab_size, d_model)self.pos_emb = PositionalEncoding(d_model)self.layers = nn.ModuleList([DecoderLayer() for _ in range(n_layers)])def forward(self, dec_inputs, enc_inputs, enc_outputs):''' dec_inputs: [batch_size, tgt_len] enc_intpus: [batch_size, src_len] enc_outputs: [batsh_size, src_len, d_model] 經(jīng)過六次encoder之后得到的東西'''dec_outputs = self.tgt_emb(dec_inputs) # [batch_size, tgt_len, d_model] #同樣地,對decoder_layer進行詞向量的生成dec_outputs = self.pos_emb(dec_outputs.transpose(0, 1)).transpose(0, 1).cuda() #計算他的位置向量 # [batch_size, tgt_len, d_model]dec_self_attn_pad_mask = get_attn_pad_mask(dec_inputs, dec_inputs).cuda() # [batch_size, tgt_len, tgt_len] #decoder的multi-head attention的mask(padding部分為True,其他為False)dec_self_attn_subsequence_mask = get_attn_subsequence_mask(dec_inputs).cuda() # [batch_size, tgt_len, tgt_len] #當前時刻我是看不到未來時刻的東西的,要把之后的部門mask掉( #看不到的部分為True,看得到的部分為Falsedec_self_attn_mask = torch.gt((dec_self_attn_pad_mask + dec_self_attn_subsequence_mask), 0).cuda() # [batch_size, tgt_len, tgt_len]#布爾+int false 0 true 1,gt 大于 True #這樣把dec_self_attn_pad_mask和dec_self_attn_subsequence_mask里面為True的部分都剔除掉了 #也就是說,結(jié)果是所有需要被mask掉位置為True,不需要被mask掉的為Falsedec_enc_attn_mask = get_attn_pad_mask(dec_inputs, enc_inputs) # [batc_size, tgt_len, src_len] #在decoder的第二個attention里面使用dec_self_attns, dec_enc_attns = [], [] #decoder的兩個attention模塊for layer in self.layers:# dec_outputs: [batch_size, tgt_len, d_model], #dec_self_attn: [batch_size, n_heads, tgt_len, tgt_len], #dec_enc_attn: [batch_size, h_heads, tgt_len, src_len]dec_outputs, dec_self_attn, dec_enc_attn = \layer(dec_outputs, enc_outputs, dec_self_attn_mask, dec_enc_attn_mask)dec_self_attns.append(dec_self_attn)dec_enc_attns.append(dec_enc_attn)return dec_outputs, dec_self_attns, dec_enc_attns

8.2 DecoderLayer

class DecoderLayer(nn.Module):def __init__(self):super(DecoderLayer, self).__init__()self.dec_self_attn = MultiHeadAttention()self.dec_enc_attn = MultiHeadAttention()self.pos_ffn = PoswiseFeedForwardNet()def forward(self, dec_inputs, enc_outputs, dec_self_attn_mask, dec_enc_attn_mask):''' dec_inputs: [batch_size, tgt_len, d_model] enc_outputs: [batch_size, src_len, d_model] dec_self_attn_mask: [batch_size, tgt_len, tgt_len] dec_enc_attn_mask: [batch_size, tgt_len, src_len]'''dec_outputs, dec_self_attn = self.dec_self_attn(dec_inputs, dec_inputs, dec_inputs, dec_self_attn_mask) # dec_outputs: [batch_size, tgt_len, d_model], #dec_self_attn: [batch_size, n_heads, tgt_len, tgt_len] #先是decoder的self-attentiondec_outputs, dec_enc_attn = self.dec_enc_attn(dec_outputs, enc_outputs, enc_outputs, dec_enc_attn_mask) # dec_outputs: [batch_size, tgt_len, d_model] # dec_enc_attn: [batch_size, h_heads, tgt_len, src_len] #再是encoder-decoder attention部分dec_outputs = self.pos_ffn(dec_outputs) # [batch_size, tgt_len, d_model] #特征提取return dec_outputs, dec_self_attn, dec_enc_attn #在 Decoder Layer 中會調(diào)用兩次 MultiHeadAttention,第一次是計算 Decoder Input 的 self-attention,得到輸出 dec_outputs。 #然后將 dec_outputs 作為生成 Q 的元素,enc_outputs 作為生成 K 和 V 的元素,再調(diào)用一次

8.2.1?get_attn_subsequence_mask

def get_attn_subsequence_mask(seq): #Subsequence Mask 只有 Decoder的self-attention會用到,主要作用是屏蔽未來時刻單詞的信息。'''seq: [batch_size, tgt_len] '''attn_shape = [seq.size(0), seq.size(1), seq.size(1)] #[batch_size, tgt_len, tgt_len]subsequence_mask = np.triu(np.ones(attn_shape), k=1) # Upper triangular matrix #首先通過 np.ones() 生成一個全 1 的方陣 #然后通過 np.triu() 生成一個上三角矩陣(對角線元素及其左下方全為0)subsequence_mask = torch.from_numpy(subsequence_mask).byte()#轉(zhuǎn)化成byte類型的tensorreturn subsequence_mask # [batch_size, tgt_len, tgt_len]''' s=torch.Tensor([[1,1,1],[3,5,1]]) get_attn_subsequence_mask(s)tensor([[[0, 1, 1],[0, 0, 1],[0, 0, 0]],[[0, 1, 1],[0, 0, 1],[0, 0, 0]]], dtype=torch.uint8) '''

9 定義模型,損失函數(shù)和優(yōu)化函數(shù)

model = Transformer().cuda() criterion = nn.CrossEntropyLoss(ignore_index=0) optimizer = optim.SGD(model.parameters(), lr=1e-3, momentum=0.99)

10?進行訓練

for epoch in range(30):for enc_inputs, dec_inputs, dec_outputs in loader:'''enc_inputs: [batch_size, src_len]dec_inputs: [batch_size, tgt_len]dec_outputs: [batch_size, tgt_len]'''enc_inputs, dec_inputs, dec_outputs = enc_inputs.cuda(), dec_inputs.cuda(), dec_outputs.cuda()outputs, enc_self_attns, dec_self_attns, dec_enc_attns = model(enc_inputs, dec_inputs) # outputs: [batch_size * tgt_len, tgt_vocab_size] loss = criterion(outputs, dec_outputs.view(-1))print('Epoch:', '%04d' % (epoch + 1), 'loss =', '{:.6f}'.format(loss))optimizer.zero_grad()loss.backward()optimizer.step()''' Epoch: 0001 loss = 2.399018 Epoch: 0002 loss = 2.190828 Epoch: 0003 loss = 2.072805 Epoch: 0004 loss = 1.816573 Epoch: 0005 loss = 1.629891 Epoch: 0006 loss = 1.342404 Epoch: 0007 loss = 1.120496 Epoch: 0008 loss = 0.945255 Epoch: 0009 loss = 0.765375 Epoch: 0010 loss = 0.597852 Epoch: 0011 loss = 0.504108 Epoch: 0012 loss = 0.368425 Epoch: 0013 loss = 0.273608 Epoch: 0014 loss = 0.239933 Epoch: 0015 loss = 0.187699 Epoch: 0016 loss = 0.161942 Epoch: 0017 loss = 0.151922 Epoch: 0018 loss = 0.103952 Epoch: 0019 loss = 0.072388 Epoch: 0020 loss = 0.080190 Epoch: 0021 loss = 0.070481 Epoch: 0022 loss = 0.054710 Epoch: 0023 loss = 0.053659 Epoch: 0024 loss = 0.047746 Epoch: 0025 loss = 0.029473 Epoch: 0026 loss = 0.039323 Epoch: 0027 loss = 0.036756 Epoch: 0028 loss = 0.014491 Epoch: 0029 loss = 0.020453 Epoch: 0030 loss = 0.024998 '''

11 測試結(jié)果

enc_inputs, dec_inputs,dec_outputs = next(iter(loader))predict, e_attn, d1_attn, d2_attn = model(enc_inputs[0].view(1, -1).cuda(), dec_inputs[0].view(1, -1).cuda())predict = predict.data.max(1, keepdim=True)[1]print(enc_inputs[0], '->', [idx2word[n.item()] for n in predict.squeeze()]) #tensor([1, 2, 3, 5, 0]) -> ['i', 'want', 'a', 'coke', '.', 'E']''' e_attn的形狀[6,8,5,5] 六層 8頭 5*5 d1_attn的形狀[6,8,6,6] 六層 8頭 6*6(decoder自己的attention) d2_attn的形狀[6,8,6,5] 六層 8頭 6*5'''

12 可視化attention

我們以encoder 最后一層的attention為例:

x=e_attn[-1].view(8,5,5) import seaborn import matplotlib.pyplot as plt for i in range(8):plt.title('head'+str(i))seaborn.heatmap(x[i].data.cpu(),cmap='Blues')plt.show()

13 整體代碼

#導入庫 import math import torch import numpy as np import torch.nn as nn import torch.optim as optim import torch.utils.data as Data#***********************************************# #數(shù)據(jù)集處理 # S: Symbol that shows starting of decoding input # E: Symbol that shows endng of decoding output # P: Symbol that will fill in blank sequence if current batch data size is short than time steps sentences = [# enc_input dec_input dec_output['ich mochte ein bier', 'S i want a beer .', 'i want a beer . E'],['ich mochte ein cola', 'S i want a coke .', 'i want a coke . E'] ] #encoder input和decoder input就不用說了,分別是transformer中encoder和decoder的輸入 #decoder output就是我們理論上需要輸出的東西(ground truth)(預(yù)測的句子和這個進行比對,算loss) #這里的輸入數(shù)據(jù)集只是兩對英德句子,每個字的索引(vocab)也是手動編碼上去的 src_vocab = {'P' : 0, 'ich' : 1, 'mochte' : 2, 'ein' : 3, 'bier' : 4, 'cola' : 5} # Padding Should be Zero #每一個batch里面的句子長度是一樣的,那么不足的部分就需要補Padding src_vocab_size = len(src_vocab)tgt_vocab = {'P' : 0, 'i' : 1, 'want' : 2, 'a' : 3, 'beer' : 4, 'coke' : 5, 'S' : 6, 'E' : 7, '.' : 8} idx2word = {i: w for i, w in enumerate(tgt_vocab)}tgt_vocab_size = len(tgt_vocab)#***********************************************# #參數(shù)定義4 src_len = 5 # enc_input max sequence length #encoder 輸入的句子的長度(不足的部分補padding) tgt_len = 6 # dec_input(=dec_output) max sequence length #decoder輸出的目標句子的長度(算上起始符S和終止符E之后)#***********************************************# #transformer的參數(shù) # Transformer Parameters d_model = 512 #每一個詞的 word embedding 用多少位表示 #(包括positional encoding應(yīng)該用多少位表示,因為這兩個要維度相加,應(yīng)該是一樣的維度) d_ff = 2048 # FeedForward dimension #forward線性層變成多少位(d_model->d_ff->d_model) d_k = d_v = 64 # dimension of K(=Q), V #K,Q,V矩陣的維度(K和Q一定是一樣的,因為要K乘Q的轉(zhuǎn)置),V不一定 ''' 換一種說法,就是我在進行self-attention的時候, 從input(當然是加了位置編碼之后的input)線性變換之后的三個向量 K,Q,V的維度 ''' n_layers = 6 #encoder和decoder各有多少層 n_heads = 8 #multi-head attention有幾個頭 #***********************************************##數(shù)據(jù)預(yù)處理 # 將encoder_input、decoder_input和decoder_output進行id化def make_data(sentences):enc_inputs, dec_inputs, dec_outputs = [], [], []for i in range(len(sentences)):#對于輸入的每一句話enc_input = [src_vocab[n] for n in sentences[i][0].split()]# 每一次生成這一行sentence中encoder_input對應(yīng)的id編碼for _ in range(src_len-len(enc_input)):enc_input.append(0)dec_input = [tgt_vocab[n] for n in sentences[i][1].split()]# 每一次生成這一行sentence中decoder_input對應(yīng)的id編碼for _ in range(tgt_len-len(dec_input)):dec_input.append(0)dec_output = [tgt_vocab[n] for n in sentences[i][2].split()]# 每一次生成這一行sentence中decoder_output對應(yīng)的id編碼for _ in range(tgt_len-len(dec_output)):dec_output.append(0)#分別對encoder-input、decoder-input、decoder-output進行處理,分別放到一個list里面enc_inputs.append(enc_input)dec_inputs.append(dec_input)dec_outputs.append(dec_output)return torch.LongTensor(enc_inputs), torch.LongTensor(dec_inputs), torch.LongTensor(dec_outputs)enc_inputs, dec_inputs, dec_outputs = make_data(sentences) #***********************************************#class MyDataSet(Data.Dataset):def __init__(self, enc_inputs, dec_inputs, dec_outputs):super(MyDataSet, self).__init__()self.enc_inputs = enc_inputsself.dec_inputs = dec_inputsself.dec_outputs = dec_outputsdef __len__(self):return self.enc_inputs.shape[0]#有幾個sentencedef __getitem__(self, idx):return self.enc_inputs[idx], self.dec_inputs[idx], self.dec_outputs[idx]#根據(jù)索引找encoder_input,decoder_input,decoder_outputloader = Data.DataLoader(MyDataSet(enc_inputs, dec_inputs, dec_outputs), batch_size=2, shuffle=True)#***********************************************# class PositionalEncoding(nn.Module):def __init__(self, d_model, dropout=0.1, max_len=5000):super(PositionalEncoding, self).__init__()self.dropout = nn.Dropout(p=dropout)#max_length_(一個sequence的最大長度)pe = torch.zeros(max_len, d_model)#pe [max_len,d_model]position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)#position [max_len,1]div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))#div_term:[d_model/2]#e^(-i*log10000/d_model)=10000^(-i/d_model)#d_model為embedding_dimension#兩個相乘的維度為[max_len,d_model/2] pe[:, 0::2] = torch.sin(position * div_term)pe[:, 1::2] = torch.cos(position * div_term)#計算position encoding#pe的維度為[max_len,d_model],每一行的奇數(shù)偶數(shù)分別取sin和cos(position * div_term)里面的值pe = pe.unsqueeze(0).transpose(0, 1)#維度變成(max_len,1,d_model)#所以直接用pe=pe.unsqueeze(1)也可以self.register_buffer('pe', pe)#放入buffer中,參數(shù)不會訓練def forward(self, x):'''x: [seq_len, batch_size, d_model]'''x = x + self.pe[:x.size(0), :,:]#選取和x一樣維度的seq_length,將pe加到x上return self.dropout(x) #***********************************************# #由于在 Encoder 和 Decoder 中都需要進行 mask 操作, #因此就無法確定這個函數(shù)的參數(shù)中 seq_len 的值, #如果是在 Encoder 中調(diào)用的,seq_len 就等于 src_len #如果是在 Decoder 中調(diào)用的,seq_len 就有可能等于 src_len, #也有可能等于 tgt_len(因為 Decoder 有兩次 mask) #src_len 是在encoder-decoder中的mask #tgt_len是decdoer maskdef get_attn_pad_mask(seq_q, seq_k):#對于seq_q中的每一個元素,它都會和seq_k中的每一個元素有著一個相關(guān)聯(lián)系數(shù),這個系數(shù)組成一個矩陣:#但是因為pad的存在,pad的這些地方是不參與我們attention的計算的,那么就是我們這里要返回的東西就是輔助得到哪些位是pad'''seq_q: [batch_size, seq_len]seq_k: [batch_size, seq_len]seq_len could be src_len or it could be tgt_lenseq_len in seq_q and seq_len in seq_k maybe not equal'''#pad的位置標記上Truebatch_size, len_q = seq_q.size()batch_size, len_k = seq_k.size()#seq_q:[[1,2,3,4,0],[1,2,4,5,0]] ->pad_attn_mask [[F,F,F,F,T],[F,F,F,F,T]]#擴展一個維度,因為word embedding是三維的pad_attn_mask = seq_k.data.eq(0).unsqueeze(1) # pad_attn_mask [batch_size, 1, len_k], False is masked#通過seq_k.data.eq(0),判斷哪些位是pad(pad的編碼為0)#舉個例子,輸入為 seq_data = [1, 2, 3, 4, 0],seq_data.data.eq(0) 就會返回 [False, False, False, False, True]return pad_attn_mask.expand(batch_size, len_q, len_k) #對于每一個batch_size對應(yīng)的一行,都擴充為len_q行# [batch_size, len_q, len_k] #***********************************************# def get_attn_subsequence_mask(seq): #Subsequence Mask 只有 Decoder的self-attention會用到,主要作用是屏蔽未來時刻單詞的信息。'''seq: [batch_size, tgt_len]'''attn_shape = [seq.size(0), seq.size(1), seq.size(1)]#[batch_size, tgt_len, tgt_len]subsequence_mask = np.triu(np.ones(attn_shape), k=1) # Upper triangular matrix#首先通過 np.ones() 生成一個全 1 的方陣,然后通過 np.triu() 生成一個上三角矩陣(對角線元素及其左下方全為0)subsequence_mask = torch.from_numpy(subsequence_mask).byte()#轉(zhuǎn)化成byte類型的tensorreturn subsequence_mask # [batch_size, tgt_len, tgt_len] #***********************************************# class ScaledDotProductAttention(nn.Module):def __init__(self):super(ScaledDotProductAttention, self).__init__()def forward(self, Q, K, V, attn_mask):'''Q: [batch_size, n_heads, len_q, d_k]K: [batch_size, n_heads, len_k, d_k]V: [batch_size, n_heads, len_v(=len_k), d_v]attn_mask: [batch_size, n_heads, seq_len, seq_len]'''scores = torch.matmul(Q, K.transpose(-1, -2)) / np.sqrt(d_k) # scores : [batch_size, n_heads, len_q, len_k]scores.masked_fill_(attn_mask, -1e9) #attn_mask所有為True的部分(即有pad的部分),scores填充為負無窮,也就是這個位置的值對于softmax沒有影響attn = nn.Softmax(dim=-1)(scores) #attn: [batch_size, n_heads, len_q, len_k]#對每一行進行softmaxcontext = torch.matmul(attn, V) # [batch_size, n_heads, len_q, d_v]return context, attn ''' 這里要做的是,通過 Q 和 K 計算出 scores,然后將 scores 和 V 相乘,得到每個單詞的 context vector第一步是將 Q 和 K 的轉(zhuǎn)置相乘沒什么好說的,相乘之后得到的 scores 還不能立刻進行 softmax, 需要和 attn_mask 相加,把一些需要屏蔽的信息屏蔽掉, attn_mask 是一個僅由 True 和 False 組成的 tensor,并且一定會保證 attn_mask 和 scores 的維度四個值相同(不然無法做對應(yīng)位置相加)mask 完了之后,就可以對 scores 進行 softmax 了。然后再與 V 相乘,得到 context ''' #***********************************************# class MultiHeadAttention(nn.Module):def __init__(self):super(MultiHeadAttention, self).__init__()self.W_Q = nn.Linear(d_model, d_k * n_heads, bias=False)self.W_K = nn.Linear(d_model, d_k * n_heads, bias=False)self.W_V = nn.Linear(d_model, d_v * n_heads, bias=False)#三個矩陣,分別對輸入進行三次線性變化self.fc = nn.Linear(n_heads * d_v, d_model, bias=False)#變換維度def forward(self, input_Q, input_K, input_V, attn_mask):'''input_Q: [batch_size, len_q, d_model]input_K: [batch_size, len_k, d_model]input_V: [batch_size, len_v(=len_k), d_model]attn_mask: [batch_size, seq_len, seq_len]'''residual, batch_size = input_Q, input_Q.size(0)# [batch_size, len_q, d_model]#(W)-> [batch_size, len_q,d_k * n_heads]#(view)->[batch_size, len_q,n_heads,d_k]#(transpose)-> [batch_size,n_heads, len_q,d_k ]Q = self.W_Q(input_Q).view(batch_size, -1, n_heads, d_k).transpose(1,2) K = self.W_K(input_K).view(batch_size, -1, n_heads, d_k).transpose(1,2) V = self.W_V(input_V).view(batch_size, -1, n_heads, d_v).transpose(1,2) #生成Q,K,V矩陣attn_mask = attn_mask.unsqueeze(1).repeat(1, n_heads, 1, 1) # attn_mask : [batch_size, n_heads, seq_len, seq_len]context, attn = ScaledDotProductAttention()(Q, K, V, attn_mask)# context: [batch_size, n_heads, len_q, d_v],#attn: [batch_size, n_heads, len_q, len_k]context = context.transpose(1, 2).reshape(batch_size, -1, n_heads * d_v) # context: [batch_size, len_q, n_heads * d_v]output = self.fc(context) # [batch_size, len_q, d_model]return nn.LayerNorm(d_model).cuda()(output + residual), attn ''' 完整代碼中一定會有三處地方調(diào)用 MultiHeadAttention(),Encoder Layer 調(diào)用一次, 傳入的 input_Q、input_K、input_V 全部都是 enc_inputs; Decoder Layer 中兩次調(diào)用,第一次都是decoder_inputs;第二次是兩個encoder_outputs和一個decoder——input ''' #***********************************************# class PoswiseFeedForwardNet(nn.Module):def __init__(self):super(PoswiseFeedForwardNet, self).__init__()self.fc = nn.Sequential(nn.Linear(d_model, d_ff, bias=False),nn.ReLU(),nn.Linear(d_ff, d_model, bias=False))def forward(self, inputs):'''inputs: [batch_size, seq_len, d_model]'''residual = inputsoutput = self.fc(inputs)return nn.LayerNorm(d_model).cuda()(output + residual) # [batch_size, seq_len, d_model]#也有殘差連接和layer normalization#這段代碼非常簡單,就是做兩次線性變換,殘差連接后再跟一個 Layer Norm #***********************************************# class EncoderLayer(nn.Module):def __init__(self):super(EncoderLayer, self).__init__()self.enc_self_attn = MultiHeadAttention()#多頭注意力機制self.pos_ffn = PoswiseFeedForwardNet()#提取特征def forward(self, enc_inputs, enc_self_attn_mask):'''enc_inputs: [batch_size, src_len, d_model]enc_self_attn_mask: [batch_size, src_len, src_len]'''# enc_outputs: [batch_size, src_len, d_model], #attn: [batch_size, n_heads, src_len, src_len] 每一個投一個注意力矩陣enc_outputs, attn = self.enc_self_attn(enc_inputs, enc_inputs, enc_inputs, enc_self_attn_mask) # enc_inputs to same Q,K,V#乘以WQ,WK,WV生成QKV矩陣(為什么傳三個?因為這里傳的是一樣的#但在decoder-encoder的mulit-head里面,我們需要的decoder input encoder output encoder output#所以為了使用方便,我們在定義enc_self_atten函數(shù)的時候就定義的使有三個形參的enc_outputs = self.pos_ffn(enc_outputs) # enc_outputs: [batch_size, src_len, d_model]#輸入和輸出的維度是一樣的return enc_outputs, attn #將上述組件拼起來,就是一個完整的 Encoder Layer #***********************************************# class DecoderLayer(nn.Module):def __init__(self):super(DecoderLayer, self).__init__()self.dec_self_attn = MultiHeadAttention()self.dec_enc_attn = MultiHeadAttention()self.pos_ffn = PoswiseFeedForwardNet()def forward(self, dec_inputs, enc_outputs, dec_self_attn_mask, dec_enc_attn_mask):'''dec_inputs: [batch_size, tgt_len, d_model]enc_outputs: [batch_size, src_len, d_model]dec_self_attn_mask: [batch_size, tgt_len, tgt_len]dec_enc_attn_mask: [batch_size, tgt_len, src_len]'''# dec_outputs: [batch_size, tgt_len, d_model], dec_self_attn: [batch_size, n_heads, tgt_len, tgt_len]dec_outputs, dec_self_attn = self.dec_self_attn(dec_inputs, dec_inputs, dec_inputs, dec_self_attn_mask)# dec_outputs: [batch_size, tgt_len, d_model], dec_enc_attn: [batch_size, h_heads, tgt_len, src_len]#先是decoder的self-attentiondec_outputs, dec_enc_attn = self.dec_enc_attn(dec_outputs, enc_outputs, enc_outputs, dec_enc_attn_mask)#再是encoder-decoder attention部分dec_outputs = self.pos_ffn(dec_outputs) # [batch_size, tgt_len, d_model]#特征提取return dec_outputs, dec_self_attn, dec_enc_attn #在 Decoder Layer 中會調(diào)用兩次 MultiHeadAttention,第一次是計算 Decoder Input 的 self-attention,得到輸出 dec_outputs。 #然后將 dec_outputs 作為生成 Q 的元素,enc_outputs 作為生成 K 和 V 的元素,再調(diào)用一次 MultiHeadAttention,得到的是 Encoder 和 Decoder Layer 之間的 context vector。最后將 dec_outptus 做一次維度變換,然后返回 #***********************************************# class Encoder(nn.Module):def __init__(self):super(Encoder, self).__init__()self.src_emb = nn.Embedding(src_vocab_size, d_model)#對encoder的輸入的每個單詞進行詞向量計算詞向量/字向量(src——vocab_size個詞,每個詞d_model的維度)self.pos_emb = PositionalEncoding(d_model)#計算位置向量self.layers = nn.ModuleList([EncoderLayer() for _ in range(n_layers)])#將6個EncoderLayer組成一個moduledef forward(self, enc_inputs):'''enc_inputs: [batch_size, src_len]'''enc_outputs = self.src_emb(enc_inputs) #對每個單詞進行詞向量計算#enc_outputs [batch_size, src_len, d_model]enc_outputs = self.pos_emb(enc_outputs.transpose(0, 1)).transpose(0, 1) #添加位置編碼# enc_outputs [batch_size, src_len, d_model]enc_self_attn_mask = get_attn_pad_mask(enc_inputs, enc_inputs) # enc_self_attn: [batch_size, src_len, src_len]#計算得到encoder-attention的pad martixenc_self_attns = []#創(chuàng)建一個列表,保存接下來要返回的字-字attention的值,不參與任何計算,供可視化用for layer in self.layers:# enc_outputs: [batch_size, src_len, d_model]# enc_self_attn: [batch_size, n_heads, src_len, src_len]enc_outputs, enc_self_attn = layer(enc_outputs, enc_self_attn_mask)enc_self_attns.append(enc_self_attn)#再傳進來就不用positional decoding#記錄下每一次的attentionreturn enc_outputs, enc_self_attns#使用 nn.ModuleList() 里面的參數(shù)是列表,列表里面存了 n_layers 個 Encoder Layer#由于我們控制好了 Encoder Layer 的輸入和輸出維度相同,所以可以直接用個 for 循環(huán)以嵌套的方式, #將上一次 Encoder Layer 的輸出作為下一次 Encoder Layer 的輸入#***********************************************# class Decoder(nn.Module):def __init__(self):super(Decoder, self).__init__()self.tgt_emb = nn.Embedding(tgt_vocab_size, d_model)self.pos_emb = PositionalEncoding(d_model)self.layers = nn.ModuleList([DecoderLayer() for _ in range(n_layers)])def forward(self, dec_inputs, enc_inputs, enc_outputs):'''dec_inputs: [batch_size, tgt_len]enc_intpus: [batch_size, src_len]enc_outputs: [batsh_size, src_len, d_model] 經(jīng)過六次encoder之后得到的東西'''dec_outputs = self.tgt_emb(dec_inputs) # [batch_size, tgt_len, d_model]#同樣地,對decoder_layer進行詞向量的生成dec_outputs = self.pos_emb(dec_outputs.transpose(0, 1)).transpose(0, 1).cuda() #計算他的位置向量# [batch_size, tgt_len, d_model]dec_self_attn_pad_mask = get_attn_pad_mask(dec_inputs, dec_inputs).cuda() # [batch_size, tgt_len, tgt_len]dec_self_attn_subsequence_mask = get_attn_subsequence_mask(dec_inputs).cuda() # [batch_size, tgt_len, tgt_len]#當前時刻我是看不到未來時刻的東西的dec_self_attn_mask = torch.gt((dec_self_attn_pad_mask + dec_self_attn_subsequence_mask), 0).cuda() # [batch_size, tgt_len, tgt_len]#布爾+int false 0 true 1,gt 大于 True#這樣把dec_self_attn_pad_mask和dec_self_attn_subsequence_mask里面為True的部分都剔除掉了#也就是說,即屏蔽掉了pad也屏蔽掉了maskdec_enc_attn_mask = get_attn_pad_mask(dec_inputs, enc_inputs) # [batc_size, tgt_len, src_len]#在decoder的第二個attention里面使用dec_self_attns, dec_enc_attns = [], []for layer in self.layers:# dec_outputs: [batch_size, tgt_len, d_model], #dec_self_attn: [batch_size, n_heads, tgt_len, tgt_len], #dec_enc_attn: [batch_size, h_heads, tgt_len, src_len]dec_outputs, dec_self_attn, dec_enc_attn = \layer(dec_outputs, enc_outputs, dec_self_attn_mask, dec_enc_attn_mask)dec_self_attns.append(dec_self_attn)dec_enc_attns.append(dec_enc_attn)return dec_outputs, dec_self_attns, dec_enc_attns #***********************************************# class Transformer(nn.Module):def __init__(self):super(Transformer, self).__init__()self.encoder = Encoder().cuda()self.decoder = Decoder().cuda()self.projection = nn.Linear(d_model, tgt_vocab_size, bias=False).cuda()#對decoder的輸出轉(zhuǎn)換維度,#從隱藏層維數(shù)->英語單詞詞典大小(選取概率最大的那一個,作為我們的預(yù)測結(jié)果)def forward(self, enc_inputs, dec_inputs):'''enc_inputs維度:[batch_size, src_len] 對encoder-input,我一個batch中有幾個sequence,一個sequence有幾個字dec_inputs: [batch_size, tgt_len] 對decoder-input,我一個batch中有幾個sequence,一個sequence有幾個字'''# enc_outputs: [batch_size, src_len, d_model],# d_model是每一個字的word embedding長度"""enc_self_attns: [n_layers, batch_size, n_heads, src_len, src_len]注意力矩陣,對encoder和decoder,每一層,每一句話,每一個頭,每兩個字之間都有一個權(quán)重系數(shù),這些權(quán)重系數(shù)組成了注意力矩陣(之后的dec_self_attns同理,當然decoder還有一個decoder-encoder的矩陣)"""enc_outputs, enc_self_attns = self.encoder(enc_inputs)# dec_outpus: [batch_size, tgt_len, d_model],#dec_self_attns: [n_layers, batch_size, n_heads, tgt_len, tgt_len], #dec_enc_attn: [n_layers, batch_size, tgt_len, src_len]dec_outputs, dec_self_attns, dec_enc_attns = self.decoder(dec_inputs, enc_inputs, enc_outputs)dec_logits = self.projection(dec_outputs) #將輸出的維度,從 [batch_size, tgt_len, d_model]變成[batch_size, tgt_len, tgt_vocab_size]# dec_logits: [batch_size, tgt_len, tgt_vocab_size]return dec_logits.view(-1, dec_logits.size(-1)), enc_self_attns, dec_self_attns, dec_enc_attns #dec_logits 的維度是 [batch_size * tgt_len, tgt_vocab_size],可以理解為, #一個句子,這個句子有 batch_size*tgt_len 個單詞,每個單詞有 tgt_vocab_size 種情況,取概率最大者#Transformer 主要就是調(diào)用 Encoder 和 Decoder。最后返回 #***********************************************# model = Transformer().cuda() criterion = nn.CrossEntropyLoss(ignore_index=0) optimizer = optim.SGD(model.parameters(), lr=1e-3, momentum=0.99) #***********************************************# for epoch in range(30):for enc_inputs, dec_inputs, dec_outputs in loader:'''enc_inputs: [batch_size, src_len]dec_inputs: [batch_size, tgt_len]dec_outputs: [batch_size, tgt_len]'''enc_inputs, dec_inputs, dec_outputs = enc_inputs.cuda(), dec_inputs.cuda(), dec_outputs.cuda()# outputs: [batch_size * tgt_len, tgt_vocab_size]outputs, enc_self_attns, dec_self_attns, dec_enc_attns = model(enc_inputs, dec_inputs)loss = criterion(outputs, dec_outputs.view(-1))print('Epoch:', '%04d' % (epoch + 1), 'loss =', '{:.6f}'.format(loss))optimizer.zero_grad()loss.backward()optimizer.step()enc_inputs, dec_inputs,dec_outputs = next(iter(loader)) predict, e_attn, d1_attn, d2_attn = model(enc_inputs[0].view(1, -1).cuda(), dec_inputs[0].view(1, -1).cuda()) predict = predict.data.max(1, keepdim=True)[1] print(enc_inputs[0], '->', [idx2word[n.item()] for n in predict.squeeze()])

?

總結(jié)

以上是生活随笔為你收集整理的pytorch 实现transformer的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

最新日韩电影 | 激情婷婷久久 | 欧美久久99 | 免费观看福利视频 | 日韩婷婷 | 亚洲国产精品电影 | 99热国产精品 | 国产在线观看一区 | 91在线看免费| 亚洲精品自拍视频在线观看 | 日韩,中文字幕 | 九九视频一区 | 欧美少妇xxx| 91精品一区国产高清在线gif | 精产嫩模国品一二三区 | 欧美精品在线视频观看 | 久久精品91久久久久久再现 | 超薄丝袜一二三区 | 成年人在线观看 | 国产成人一区二区三区久久精品 | 日韩免费区 | 亚洲激情校园春色 | 日韩色爱 | 亚洲精品国产精品国自产在线 | 久久综合九色综合97_ 久久久 | 亚州国产精品久久久 | 超碰97免费在线 | 最近日本中文字幕a | 国产96视频 | 中文字幕亚洲字幕 | 成人免费毛片aaaaaa片 | 高清一区二区三区av | www免费在线观看 | 久久精品高清视频 | 91完整版观看| 91香蕉视频黄 | 91精品国产一区二区在线观看 | 久草网视频在线观看 | 69av免费视频 | 中文字幕中文字幕在线中文字幕三区 | 日韩免费在线观看 | 黄色软件在线看 | 日韩在线欧美在线 | 亚洲精品美女免费 | 国产99久久久久 | 国产在线观看91 | 手机av观看 | 中文字幕视频一区二区 | 日本中文一区二区 | 狠狠色丁香婷婷综合久小说久 | 国产高清久久久久 | 天天综合天天做 | 在线看污网站 | 五月色综合 | 亚洲高清网站 | 久久久综合电影 | av在线免费在线观看 | 欧美天堂久久 | 亚洲色图 校园春色 | 免费毛片一区二区三区久久久 | 国产精品系列在线观看 | 亚洲精品美女久久久久 | 精品产品国产在线不卡 | 亚洲小视频在线 | 国产91成人 | 免费在线观看成人av | 91视频啪 | 国产麻豆成人传媒免费观看 | 日韩乱色精品一区二区 | 久久99在线视频 | 中文字幕精品一区二区三区电影 | 中文字幕亚洲欧美 | 国产a高清 | 久久免费视频这里只有精品 | 久久国产三级 | 久久看片网 | 亚洲日本va午夜在线电影 | www.xxx.性狂虐 | 天天干天天干天天 | 免费观看黄色av | 公与妇乱理三级xxx 在线观看视频在线观看 | 国产一区免费在线 | 天天视频亚洲 | 亚洲精品免费观看 | 日批网站在线观看 | www.五月天婷婷.com | 麻豆免费在线视频 | 欧美在线视频日韩 | 色香蕉网 | 天天操天天操一操 | 久久久影视 | 99免费观看视频 | 婷婷在线播放 | 蜜臀av性久久久久蜜臀aⅴ涩爱 | 久久久久久久亚洲精品 | 国产一性一爱一乱一交 | 五月婷婷色播 | 亚洲欧美在线综合 | 美女啪啪图片 | 99精品国产一区二区三区麻豆 | 久久综合给合久久狠狠色 | 久久综合色8888 | 国产免费观看高清完整版 | 日日夜操| av在线小说 | 四虎永久免费 | 欧美一级大片在线观看 | 樱空桃av| 日韩四虎| 韩日精品在线观看 | 国产精品第十页 | 久久精品导航 | 国产视频首页 | 亚洲天堂毛片 | 日韩免费在线视频观看 | 欧美日韩国产在线观看 | 久久久久女人精品毛片九一 | 久久激情小说 | 一区二区三区不卡在线 | 久久精品在线免费观看 | 亚洲精品字幕 | 国产99区 | 午夜性色 | 亚洲精品福利在线观看 | 在线日韩一区 | 三级黄免费看 | 国产性xxxx | 中文字幕乱码在线播放 | 久久无码精品一区二区三区 | 狠狠狠干 | 国产91精品看黄网站 | 91在线一区二区 | 草久草久 | 深爱激情婷婷网 | 五月婷婷伊人网 | 人人模人人爽 | 人操人| 日韩免费在线观看视频 | 亚洲乱码久久 | 超碰精品在线观看 | 成人午夜网 | 欧美在一区 | 久久久麻豆精品一区二区 | 欧美在线视频日韩 | 婷婷在线不卡 | 激情电影影院 | 日韩精品专区 | www久久com | 香蕉视频免费看 | 日韩视频中文字幕在线观看 | 九色视频网 | 亚洲美女精品 | 欧美日韩啪啪 | www久久久| 亚州精品天堂中文字幕 | 久操久 | 四虎成人免费影院 | 国产午夜精品一区二区三区欧美 | 亚洲综合在线一区二区三区 | 99久久日韩精品视频免费在线观看 | 亚洲精品毛片一级91精品 | 一本色道久久综合亚洲二区三区 | 中文字幕视频三区 | 国产精品ⅴa有声小说 | 国产精品www | 国产精品精品久久久久久 | 日韩精品一区二区在线观看 | 五月天激情在线 | 色综合天天在线 | 亚洲国内精品 | 日韩久久精品一区二区 | 99视频精品免费视频 | 99视屏 | 91黄站| 正在播放 久久 | 久久私人影院 | 日韩免费看视频 | 国产精品福利午夜在线观看 | 国产精品久久久久久爽爽爽 | 国产精品一区二区三区在线免费观看 | 国产电影黄色av | 国产91小视频 | 欧美大片www| 亚洲干视频在线观看 | 亚洲视频国产 | 亚洲免费在线看 | 成人在线黄色 | 少妇搡bbbb搡bbb搡忠贞 | 麻豆传媒一区二区 | 一区精品在线 | 久久久久区 | 精品欧美一区二区精品久久 | 色综合久久久久综合99 | 在线 欧美 日韩 | 97影视 | 视频直播国产精品 | 久久99精品国产91久久来源 | 国产精品久久久久久久av大片 | 欧美一区二区日韩一区二区 | 国产免费又爽又刺激在线观看 | 久久在线免费视频 | 99久热精品 | 日韩精品第1页 | 亚洲精品播放 | 丝袜网站在线观看 | 99在线热播精品免费99热 | 毛片网在线播放 | 天天操天天操天天操天天操 | 久久免费激情视频 | 久久综合五月婷婷 | 天天操天天是 | www91在线观看 | 国产手机视频 | 欧美a在线看 | 国产欧美日韩精品一区二区免费 | 高清日韩一区二区 | 亚洲精品午夜久久久 | 狠狠色丁香婷综合久久 | 日日日日 | 免费a视频在线 | 九九热视频在线免费观看 | 91网在线 | 国产在线观看黄 | 日韩色在线观看 | 精品一二三四在线 | 国产视频一区二区在线 | av免费高清观看 | 天天干夜夜操视频 | 夜夜夜夜爽 | 在线电影av | av成人免费网站 | 久久99视频免费 | 人人射人人射 | 特级西西www44高清大胆图片 | 麻豆av一区二区三区在线观看 | 午夜精品一区二区三区在线观看 | 久久久久久蜜av免费网站 | 91精品国产自产在线观看 | 国产黄色av | 亚洲欧洲精品视频 | 波多野结衣精品 | 午夜久久久久久久久久影院 | 欧美性色黄| 久久精品综合一区 | 999久久久国产精品 高清av免费观看 | 欧美日韩精品在线视频 | 久久国产精品久久精品 | 色婷婷综合久久久中文字幕 | 午夜国产福利视频 | 日本高清中文字幕有码在线 | 久久99久久99 | 天天操天天干天天操天天干 | 中文字幕成人一区 | 日日操狠狠干 | 激情五月婷婷综合网 | 日日草夜夜操 | 久久精品直播 | 91亚洲狠狠婷婷综合久久久 | 欧美一级性生活视频 | 久久99婷婷| 日韩黄色免费在线观看 | 激情影音 | 人人澡超碰碰97碰碰碰软件 | 日日夜夜噜 | 91自拍视频在线 | 国产999精品久久久久久绿帽 | www国产亚洲精品久久网站 | 99精品免费网 | 午夜天使 | 午夜在线免费观看视频 | 五月天激情婷婷 | 91亚洲狠狠婷婷综合久久久 | 精品日韩中文字幕 | 天天干,天天射,天天操,天天摸 | 九九99 | 亚洲精品美女久久17c | 六月婷婷久香在线视频 | 欧美调教网站 | av资源免费观看 | 91在线porny国产在线看 | 久久精品一区八戒影视 | 成人久久久久久久久 | 日韩中文字幕第一页 | 欧美一区在线观看视频 | 色中射 | 超碰在线日韩 | 欧美色综合 | 日韩av线观看 | 天天色天天爱天天射综合 | 亚洲精品美女久久久久网站 | 在线观看中文字幕av | aaa亚洲精品一二三区 | 日韩三级不卡 | 天天色天天爱天天射综合 | 亚洲精品裸体 | 日韩影视在线 | 2023亚洲精品国偷拍自产在线 | www.黄色片网站 | 综合网婷婷| 欧美日韩精品影院 | 日韩精品中文字幕久久臀 | 中文字幕中文字幕中文字幕 | 国产成人综合在线观看 | 免费看黄色小说的网站 | 国产免费又黄又爽 | 美女亚洲精品 | 99精品欧美一区二区三区黑人哦 | 日本精品中文字幕在线观看 | 久久亚洲婷婷 | 日韩大陆欧美高清视频区 | 天天se天天cao天天干 | 在线播放视频一区 | 久久久久国产成人精品亚洲午夜 | 香蕉在线视频播放网站 | 91精品一区二区三区久久久久久 | 欧美ⅹxxxxxx| 亚洲激精日韩激精欧美精品 | 亚洲一级国产 | 黄a网| 特级黄录像视频 | 在线三级av | 久草观看| 日韩在线视频网站 | 国产午夜精品一区二区三区欧美 | 中文字幕久久网 | 亚洲dvd| 国产精品国产精品 | 99爱视频 | 黄色资源网站 | 日日夜夜噜噜噜 | 黄色av电影网 | 久久综合色播五月 | 久久久久久久久久久久久影院 | 日日麻批40分钟视频免费观看 | 五月天电影免费在线观看一区 | 成人污视频在线观看 | free. 性欧美.com | 69av网| 九九九九精品九九九九 | 99精品视频播放 | 国产精品99久久久久久有的能看 | 91亚洲永久精品 | 狠狠干中文字幕 | 久久人人爽爽人人爽人人片av | 在线观看爱爱视频 | 久艹视频在线免费观看 | 中文字幕免费不卡视频 | 日韩av成人在线 | 伊人久操 | 久草在线视频中文 | 日日操日日干 | 色中射| 久久久久久久久久影视 | 亚洲日本中文字幕在线观看 | 成人h电影在线观看 | 国内小视频在线观看 | 中文字幕在线看片 | 超碰97免费在线 | 在线亚洲欧美日韩 | 国产精品久久视频 | www.av中文字幕.com | 成人网在线免费视频 | 天天干天天操天天入 | 91字幕| 在线黄色国产 | 综合色在线观看 | 久久精品国产v日韩v亚洲 | 91xav | 99色亚洲| 国产精品久久久久一区二区三区共 | 中文字幕刺激在线 | 国产自产在线视频 | 亚洲欧洲精品视频 | 91精品免费在线 | 成人国产精品av | 亚洲精品在线观看免费 | 亚洲激情视频 | 久久久91精品国产 | 99免费在线播放99久久免费 | 91精品在线免费观看 | 日韩久久网站 | 天天色天天操综合 | 色欧美88888久久久久久影院 | 国产看片网站 | 又大又硬又黄又爽视频在线观看 | 欧美调教网站 | 国产精品一区二区电影 | 黄在线免费观看 | 夜又临在线观看 | 91视频传媒 | 丁香色天天 | 中文字幕av免费在线观看 | 98超碰人人 | 99久久超碰中文字幕伊人 | 91精品国产九九九久久久亚洲 | 国产精品久久影院 | 国产一区二区久久久 | 91视频在线免费看 | 天天天色综合a | 色夜视频 | 久久夜色精品国产欧美乱 | 日韩精品中文字幕在线播放 | 日韩偷拍精品 | 久久人人插 | 天天干天天搞天天射 | 激情欧美在线观看 | 日本一区二区不卡高清 | 中国一级片在线观看 | 视频一区在线免费观看 | 91在线一区二区 | 在线 国产 亚洲 欧美 | 91精品一 | 91精品国产综合久久久久久久 | 一级特黄av| 久久久国产精品麻豆 | 91av成人| 免费午夜在线视频 | 久久撸在线视频 | 日韩精品视频在线免费观看 | 97色免费视频 | 四虎成人网 | 亚洲精品在线观看不卡 | 久久成人精品电影 | 日韩中文字幕网站 | 亚洲人成人在线 | 久久视频这里有久久精品视频11 | 精品影院一区二区久久久 | 午夜婷婷网| 中文字幕色网站 | 国产精品美女久久久久久网站 | 欧美最猛性xxxxx亚洲精品 | 国产韩国精品一区二区三区 | 中文字幕免费高清av | 狠狠狠的干 | 99久久这里只有精品 | 在线一区电影 | 久久国产精品一区二区三区 | 四虎8848免费高清在线观看 | 欧美精品在线一区 | 91天堂影院 | 夜夜视频欧洲 | 国产区在线 | 欧美做受高潮 | 黄色在线观看免费网站 | 欧美成人在线网站 | 天天综合成人 | 久热精品国产 | 日韩区欧美久久久无人区 | 午夜久久福利 | 开心激情综合网 | 91高清免费 | 欧美一二三在线 | 亚洲成人av一区二区 | 97在线观| 中文字幕 国产 一区 | 天天射天天爽 | 日本三级人妇 | 美女网站黄免费 | 午夜骚影| 在线观看视频一区二区 | 国产精品一区二区久久国产 | 日韩专区在线播放 | 免费av网址在线观看 | 日韩中字在线 | av福利资源 | 国产精品午夜免费福利视频 | 国产玖玖在线 | av资源免费看 | 免费网站污 | 香蕉视频在线播放 | 国产美女网站在线观看 | 久久精品爱爱视频 | 草久在线播放 | 91精品视屏 | 深爱五月激情五月 | 国产色资源| 精品久久国产一区 | 亚洲闷骚少妇在线观看网站 | 免费观看一区二区三区视频 | 日本乱视频 | 中文字幕av网站 | 国产黄色片在线 | 日本中文字幕在线观看 | 在线观看国产麻豆 | 日本在线免费看 | 婷婷视频在线观看 | 久久综合久久综合久久综合 | 久久国产精品一区二区 | 国产精品一区二区三区在线免费观看 | 九九热精品国产 | av一级片 | 亚洲精品国产成人 | www免费 | 亚洲日日夜夜 | 91成人免费在线 | 五月婷婷综合在线观看 | av 在线观看| 黄色在线观看免费网站 | 亚洲六月丁香色婷婷综合久久 | a视频免费看 | 久久不见久久见免费影院 | 免费视频在线观看网站 | 久久高清免费视频 | 911精品视频 | 久久乐九色婷婷综合色狠狠182 | 精一区二区 | 欧美色图视频一区 | 亚洲综合在线五月天 | 激情av一区二区 | 黄色毛片一级 | 网站在线观看你们懂的 | 国产不卡在线观看视频 | 亚洲专区免费观看 | 国产精品入口66mio女同 | 探花视频在线观看 | 久久午夜色播影院免费高清 | 久久美女免费视频 | 亚洲精品综合欧美二区变态 | 国产一级三级 | 综合网伊人| 在线观看av黄色 | 国产在线观看你懂得 | 亚洲国产色一区 | 色婷婷a | 日本黄色片一区二区 | 亚洲欧美激情精品一区二区 | 免费av大片| 91黄视频在线| 精品福利视频在线观看 | 在线观看国产中文字幕 | 中文字幕色网站 | 激情婷婷网 | 国产精选在线观看 | 9在线观看免费 | 久久国产欧美日韩精品 | 成人在线免费视频观看 | 日韩精品黄 | 91丨九色丨91啦蝌蚪老版 | 国产在线美女 | 亚洲黄色成人 | 日韩网站中文字幕 | 97视频免费在线看 | 成人亚洲精品久久久久 | 日韩激情网 | 日韩网站在线观看 | 色香网 | 91精品久久久久久久久久久久久 | 日韩在线视 | 六月丁香社区 | 亚洲影视九九影院在线观看 | av电影久久 | 99精品久久久久久久久久综合 | 久久这里只精品 | 国产特级毛片 | 麻豆激情电影 | 日本久久成人中文字幕电影 | 久久久久久久网站 | 欧美精品在线观看 | 久久福利国产 | 开心激情五月网 | 8x成人免费视频 | 日韩精品久久久 | 欧美精品亚洲二区 | 国产亚洲人 | 亚洲精品国产精品久久99热 | 日韩欧美视频在线观看免费 | 国产精品亚洲人在线观看 | 97精品国产一二三产区 | 精品久久久久免费极品大片 | 91色偷偷| 日韩视频区| 手机看片99 | 国产日韩欧美在线一区 | 中文字幕成人在线观看 | 一区二区三区免费在线观看 | 日日干夜夜操视频 | 国产精品精品久久久 | 亚洲国产中文字幕在线观看 | 久久精品国产亚洲aⅴ | 亚洲第一区精品 | 99久热在线精品视频成人一区 | 久久免费播放 | 99久免费精品视频在线观看 | 中文字幕精品三区 | 国产亚洲免费的视频看 | 久久久午夜电影 | 美女久久久久久久 | 国产精品白浆视频 | 在线91av| 亚洲精品在线观看的 | a电影免费看 | 九九欧美 | 亚洲视频h | 人成午夜视频 | 日韩精品一区二区三区高清免费 | 91污视频在线观看 | 玖玖视频免费在线 | 成人黄色av网站 | 亚洲欧美成人综合 | 91av官网| 日韩一区二区三 | 国产精品热| 五月婷婷丁香在线观看 | 午夜影视av| 最新99热 | 国产黄色大全 | 欧美日韩一区二区三区视频 | 日本乱视频 | 在线观看mv的中文字幕网站 | www蜜桃视频 | 99视频一区二区 | 91精品国产综合久久婷婷香蕉 | 有没有在线观看av | 在线观看完整版 | 久久国产精品99久久久久 | 五月天国产精品 | 婷婷久久婷婷 | 国产精品网红福利 | 久久香蕉国产精品麻豆粉嫩av | 天天av天天| 中文字幕一区二区三区久久 | 久久黄色小说视频 | 91在线精品秘密一区二区 | 一二三区在线 | 00av视频 | 久久久免费精品 | 岛国av在线免费 | 久久精品4| 国产福利一区在线观看 | 17婷婷久久www | av黄色在线观看 | 高清av免费看 | 视频在线观看99 | 国产精品久久久久三级 | 国产午夜激情视频 | 国产一区二区久久 | 精品视频资源站 | 96av在线| 日韩高清一| 欧美精品一二三 | 久草网免费 | 婷婷国产在线 | 久久精品欧美一区 | 国产精品一区二区久久精品爱微奶 | 天天射天天色天天干 | 国内精品久久久久久久久久久久 | 99久久精品免费看国产 | 四虎8848免费高清在线观看 | avhd高清在线谜片 | 国产小视频精品 | 高清一区二区 | 99热都是精品 | 天天综合网天天综合色 | 在线观看日韩免费视频 | 色播99| 久久综合成人 | 欧美a级在线免费观看 | 69av久久| av一区二区三区在线观看 | 天天射日 | 亚洲激情在线播放 | 国产激情免费 | 日韩av在线影视 | 亚洲天堂va| 天天射综合网站 | 精品一区二区电影 | 色.www | 国产成人久久精品亚洲 | 操久久网 | 日本在线观看一区 | 成片视频在线观看 | 欧美精品久| 免费国产在线观看 | 99re久久资源最新地址 | 在线精品视频免费播放 | 中文字幕一区二区三区精华液 | 国产高清视频免费最新在线 | 免费av福利 | 久久久久国产精品视频 | 国产成人一区二区啪在线观看 | 久久精品国产成人精品 | 国产高清在线视频 | 91人人澡| 亚洲精品免费视频 | 麻豆传媒视频观看 | 欧美99精品 | av片子在线观看 | 天天搞天天干天天色 | 国产精品18videosex性欧美 | 色在线网站 | 久久精品99国产国产 | 99精品国产成人一区二区 | 精品国产一区二区三区久久久 | 国产午夜三级一区二区三 | 欧美视频日韩 | 亚洲成人国产精品 | 久久黄网站| 久久精品久久精品久久 | 国产午夜精品视频 | 久久,天天综合 | 日韩激情一二三区 | 欧美国产日韩久久 | 手机看片福利 | 久久影院一区 | 久久精品国产一区二区三 | 91av视频免费在线观看 | 美女黄频视频大全 | 天天操天天干天天爽 | 国产精品亚洲综合久久 | 欧美激情在线网站 | 久久精品国产一区二区 | 人人爽人人看 | 四虎www| 99 国产精品| 手机成人av | 久久久wwww | 中文字幕在线高清 | 久久久免费观看视频 | 日韩久久久久久久久 | 国产又粗又猛又黄视频 | 在线观看视频一区二区三区 | 日韩高清一区在线 | 97免费在线观看视频 | 欧美日韩精品二区第二页 | 国产精品免费麻豆入口 | 在线性视频日韩欧美 | 色大片免费看 | 九九热视频在线 | 亚洲 欧洲 国产 日本 综合 | 国产精品久久久久久久久毛片 | 中文资源在线官网 | 国产一区二区在线免费播放 | 一区二区三区四区五区六区 | 亚洲一区二区天堂 | 九九九九免费视频 | 亚欧洲精品视频在线观看 | 中文字幕二区三区 | 一区二区三区中文字幕在线观看 | 欧美精品乱码久久久久 | a天堂最新版中文在线地址 久久99久久精品国产 | 日韩国产欧美在线视频 | 欧美激精品 | 天天草天天干天天 | 久久99精品国产99久久 | 亚洲精品短视频 | 精品一区 精品二区 | 免费看的黄网站 | 精品国产一区二区三区久久影院 | 天天操天天干天天 | 成人免费共享视频 | 91视视频在线直接观看在线看网页在线看 | 成人免费在线观看入口 | 丁香av在线| 国产色视频网站 | 粉嫩av一区二区三区入口 | 91亚洲狠狠婷婷综合久久久 | 亚洲精品中文在线观看 | 91在线视频播放 | 小草av在线播放 | 97日日碰人人模人人澡分享吧 | 久久超级碰视频 | 亚洲国产一二三 | 美女视频黄,久久 | 黄色免费观看视频 | 国产精品久久一区二区三区不卡 | 国产精品黄色影片导航在线观看 | 在线观看一级视频 | 日日噜噜噜噜夜夜爽亚洲精品 | 亚洲春色综合另类校园电影 | 中文字幕av在线播放 | av大全免费在线观看 | 成人四虎 | 国产精品原创视频 | 97成人精品视频在线播放 | 国产韩国日本高清视频 | av在线中文 | 国产精品一区二区久久精品爱微奶 | 国产精品久久久久久久久久久免费看 | 久热爱| 欧美一区二区三区特黄 | 色噜噜在线观看 | 亚洲成av人片在线观看www | 一区二区不卡高清 | 久黄色| 中文免费在线观看 | 国产精品丝袜久久久久久久不卡 | 国产欧美日韩精品一区二区免费 | 奇人奇案qvod | 午夜精品久久久久久 | 免费视频18 | 99久久精品免费看国产一区二区三区 | 国产裸体永久免费视频网站 | 黄色资源在线观看 | 日韩在线一二三区 | 日日日网 | 久草9视频 | 日韩在线免费高清视频 | 麻豆91网站 | 国产黄在线免费观看 | 久久伊人热| 久久精品激情 | 国产精品99久久久久久大便 | 黄色在线观看网站 | 色婷婷成人网 | 中文字幕高清 | 欧美日韩免费在线观看视频 | 91欧美国产| 最近日本韩国中文字幕 | 天天干,天天插 | 久久午夜免费视频 | 久久久久久久99精品免费观看 | 国产一区 在线播放 | 久久99精品波多结衣一区 | 精品国产福利在线 | 亚洲女人天堂成人av在线 | 国产专区在线看 | 国产网站色 | 狠狠色丁香久久婷婷综 | 日韩中文在线播放 | 欧美精品三级在线观看 | 91色影院 | 欧美a√在线 | 二区三区在线观看 | 日本xxxx裸体xxxx17| 免费视频三区 | 成人高清av在线 | 97视频在线观看播放 | 久久久久久99精品 | 国内精品小视频 | 日韩国产精品久久 | 91精品在线观看视频 | 五月激情六月丁香 | 99久热在线精品视频成人一区 | 亚洲视频在线看 | 亚洲理论片在线观看 | 一区二区毛片 | 久久精品综合 | 日韩欧美国产激情在线播放 | 日韩免费看 | 精品国产黄色片 | 免费观看全黄做爰大片国产 | 91chinesexxx| 国产精品高清在线观看 | 国产在线观看污片 | 色噜噜狠狠狠狠色综合久不 | 国产在线播放一区 | 久久久久久久综合色一本 | 日本99干网 | 亚洲成人网av | 在线观看视频h | 久久久久综合精品福利啪啪 | 亚洲精品玖玖玖av在线看 | 日韩大片免费在线观看 | 国产1区2区3区精品美女 | 超碰97成人 | 久久久久久久精 | 久久高清av | 亚洲精品美女久久 | 久草在线官网 | 最近中文字幕免费大全 | 激情中文字幕 | 国内视频在线观看 | 丁香视频全集免费观看 | 欧美 日韩 性 | 香蕉视频在线免费看 | 国产精品9999久久久久仙踪林 | 国产精品久久久久免费a∨ 欧美一级性生活片 | 久久综合天天 | 国产视频精品在线 | 97在线视频免费播放 | 国产91在线免费视频 | 91欧美国产 | 最新av中文字幕 | 蜜臀av夜夜澡人人爽人人桃色 | 天天射天天爱天天干 | www.69xx| 黄色毛片大全 | 精品欧美一区二区精品久久 | 绯色av一区| 久久久午夜影院 | 午夜精品久久久久久 | 一区二区三区在线观看免费视频 | 日本不卡一区二区 | 久久不射电影院 | 国产成人久久精品77777 | 日日精品| 99视频久| 精品国产一区二区三区四区vr | 91视频免费网址 | 91福利视频一区 | 久久久久亚洲精品成人网小说 | 免费精品视频 | 天天射天天干天天爽 | 特级西西444www大精品视频免费看 | 中文欧美字幕免费 | 在线视频 影院 | 在线网址你懂得 | 91在线日本 | 国产高清av免费在线观看 | 久久久免费视频播放 | 国产免费久久av | 亚洲精品在线一区二区 | 91久久精品一区二区三区 | 亚洲一级影院 | 久久久综合香蕉尹人综合网 | 91香蕉久久 | 成人网在线免费视频 | 国产视频一区在线免费观看 | 人人爽夜夜爽 | 男女激情网址 | 色www精品视频在线观看 | 日韩精品一区二区在线 | 日韩av不卡在线播放 | 日本精品一区二区三区在线观看 | 黄色三级免费看 | 人人爽人人澡人人添人人人人 | 免费日韩一级片 | 2017狠狠干 | 久久国产精品视频观看 | 亚洲一区二区天堂 | 91成人蝌蚪| 欧美不卡视频在线 | 国产视频一区在线播放 | av成人动漫 | 免费高清在线观看成人 | 久久久精品 一区二区三区 国产99视频在线观看 | 超碰人人舔 | 三级av网站| 日日夜夜操操操操 | 91高清在线 | 午夜色婷婷 | 黄色在线网站噜噜噜 | 婷婷色在线播放 | 欧美大片www| 国产手机av | 中文字幕在线观看免费 | 亚洲第一区在线观看 | 色视频在线免费 | 国产精品porn| 激情偷乱人伦小说视频在线观看 | 国产又粗又猛又爽又黄的视频先 | 亚洲精品视频免费观看 | 婷婷激情5月天 | 天天综合网~永久入口 | 日韩免费视频观看 | 99看视频在线观看 | 国产在线日本 | 特级毛片爽www免费版 | 日韩网站一区 | 日韩大片在线免费观看 | 99这里只有久久精品视频 | 欧洲一区二区在线观看 | 探花视频网站 | 蜜臀aⅴ国产精品久久久国产 | 亚洲不卡av一区二区三区 | 天天爽夜夜爽人人爽一区二区 | 麻豆视频国产在线观看 | 91av视频在线观看免费 | 欧美国产精品久久久久久免费 | 婷婷99 | 欧美日韩中文在线视频 | 美女免费视频黄 | www.久草视频 | 久久免费成人精品视频 | 午夜精品电影 | 免费观看一区二区三区视频 | 久久久午夜精品福利内容 | zzijzzij亚洲日本少妇熟睡 | 青青河边草手机免费 | 国产精品 999 | 黄色av成人在线观看 | 亚洲成a人片在线观看中文 中文字幕在线视频第一页 狠狠色丁香婷婷综合 | 午夜精品99久久免费 | 亚洲欧美日韩在线看 | 99久久99 | 亚洲伊人成综合网 | 天天操天天操天天 | 成人免费观看完整版电影 | 久久天天躁夜夜躁狠狠85麻豆 | 国产黄a三级三级三级三级三级 | 亚洲三级影院 | 成人h视频 | 色婷婷综合在线 | 亚洲传媒在线 | 国产高清日韩 | 日韩在线播放视频 | 在线观看黄色免费视频 | av观看久久久| 精品福利片 | 国产美女黄网站免费 | 五月天婷婷视频 | 主播av在线| 免费观看黄色12片一级视频 | 最近日本mv字幕免费观看 | 激情开心站 | 日韩成人高清在线 | 久久黄页 | 特级西西www44高清大胆图片 |