大数据文摘出品

编译:林安安、钱天培

与依据RNN的办法比较,Transformer 不需求循环,首要是由Attention 机制组成,因而能够充分利用python的高效线性代数函数库,很多节约练习时刻。

可是,文摘菌却常常听到同学诉苦,Transformer学过就忘,总是茫无头绪。

怎么办?那就自己搭一个Transformer吧!



上图是谷歌提出的transformer 架构,其本质上是一个Encoder-Decoder的结构。把英文语句输入模型,模型会输出法文语句。

要建立Transformer,咱们有必要要了解5个进程:

  • 词向量层
  • 方位编码
  • 创立Masks
  • 多头留意层(The Multi-Head Attention layer)
  • Feed Forward层


词向量


词向量是神经网络机器翻译(NMT)的规范练习办法,能够表达丰厚的词义信息。

在pytorch里很简略完结词向量:

class Embedder(nn.Module):
def __init__(self, vocab_size, d_model):
super().__init__()
self.embed = nn.Embedding(vocab_size, d_model)
def forward(self, x):
return self.embed(x)


当每个单词进入后,代码就会查询和检索词向量。模型会把这些向量当作参数进行学习,并跟着梯度下降的每次迭代而调整。

给单词赋予上下文语境:方位编程


模型了解一个语句有两个要素:一是单词的意义,二是单词在句中所在的方位。

每个单词的嵌入向量会学习单词的意义,所以咱们需求输入一些信息,让神经网络知道单词在句中所在的方位。

Vasmari用下面的函数创立方位特异性常量来处理这类问题:



这个常量是一个2D矩阵。Pos代表了语句的次序,i代表了嵌入向量所在的维度方位。在pos/i矩阵中的每一个值都能够经过上面的算式核算出来。




方位编码矩阵是一个常量,它的值能够用上面的算式核算出来。把常量嵌入矩阵,然后每个嵌入的单词会依据它所在的方位发作特定改变。

方位编辑器的代码如下所示:


class PositionalEncoder(nn.Module):
def __init__(self, d_model, max_seq_len = 80):
super().__init__()
self.d_model = d_model

# create constant 'pe' matrix with values dependant on
# pos and i
pe = torch.zeros(max_seq_len, d_model)
for pos in range(max_seq_len):
for i in range(0, d_model, 2):
pe[pos, i] = \
math.sin(pos / (10000 ** ((2 * i)/d_model)))
pe[pos, i + 1] = \
math.cos(pos / (10000 ** ((2 * (i + 1))/d_model)))

pe = pe.unsqueeze(0)
self.register_buffer('pe', pe)
def forward(self, x):
# make embeddings relatively larger
x = x * math.sqrt(self.d_model)
#add constant to embedding
seq_len = x.size(1)
x = x + Variable(self.pe[:,:seq_len], \
requires_grad=False).cuda()
return x


以上模块答应咱们向嵌入向量添加方位编码(positional encoding),为模型架构供给信息。

在给词向量添加方位编码之前,咱们要扩展词向量的数值,意图是让方位编码相对较小。这意味着向词向量添加方位编码时,词向量的原始意义不会丢掉。

创立Masks


Masks在transformer模型中起重要作用,首要包含两个方面:

在编码器和解码器中:当输入为padding,留意力会是0。

在解码器中:猜测下一个单词,避免解码器悄悄看到后边的翻译内容。

输入端生成一个mask很简略:

batch = next(iter(train_iter))
input_seq = batch.English.transpose(0,1)
input_pad = EN_TEXT.vocab.stoi['']
# creates mask with 0s wherever there is padding in the input
input_msk = (input_seq != input_pad).unsqueeze(1)


相同的,Target_seq也能够生成一个mask,可是会额定添加一个进程:

# create mask as before
target_seq = batch.French.transpose(0,1)
target_pad = FR_TEXT.vocab.stoi['']
target_msk = (target_seq != target_pad).unsqueeze(1)
size = target_seq.size(1) # get seq_len for matrix
nopeak_mask = np.triu(np.ones(1, size, size),
k=1).astype('uint8')
nopeak_mask = Variable(torch.from_numpy(nopeak_mask) == 0)
target_msk = target_msk & nopeak_mask


方针语句(法语翻译内容)作为初始值输进解码器中。解码器经过编码器的悉数输出,以及现在已翻译的单词来猜测下一个单词。

因而,咱们需求避免解码器偷看到还没猜测的单词。为了达到这个意图,咱们用到了nopeak_mask函数:



当在留意力函数中运用mask,每一次猜测都只会用到这个词之前的语句。

多头留意力


一旦咱们有了词向量(带有方位编码)和masks,咱们就能够开端构建模型层了。

下图是多头留意力的结构:



多头留意力层,每一个输入都会分红多头(multiple heads),然后让网络一起“留意”每一个词向量的不同部分。

V,K和Q别离代表“key”、“value”和“query”,这些是留意力函数的相关术语,但我不觉得解说这些术语会对了解这个模型有任何协助。

在编码器中,V、K和G将作为词向量(加上方位编码)的相同复制。它们具有维度Batch_size * seq_len * d_model.

在多头留意力中,咱们把嵌入向量分进N个头中,它们就有了维度(batch_size * N * seq_len * (d_model / N).

咱们界说终究维度 (d_model / N )为d_k。

让咱们来看看解码器模块的代码:

class MultiHeadAttention(nn.Module):
def __init__(self, heads, d_model, dropout = 0.1):
super().__init__()
self.d_model = d_model
self.d_k = d_model // heads
self.h = heads
self.q_linear = nn.Linear(d_model, d_model)
self.v_linear = nn.Linear(d_model, d_model)
self.k_linear = nn.Linear(d_model, d_model)
self.dropout = nn.Dropout(dropout)
self.out = nn.Linear(d_model, d_model)
def forward(self, q, k, v, mask=None):
bs = q.size(0)

# perform linear operation and split into h heads

k = self.k_linear(k).view(bs, -1, self.h, self.d_k)
q = self.q_linear(q).view(bs, -1, self.h, self.d_k)
v = self.v_linear(v).view(bs, -1, self.h, self.d_k)

# transpose to get dimensions bs * h * sl * d_model

k = k.transpose(1,2)
q = q.transpose(1,2)
v = v.transpose(1,2)
# calculate attention using function we will define next
scores = attention(q, k, v, self.d_k, mask, self.dropout)
# concatenate heads and put through final linear layer
concat = scores.transpose(1,2).contiguous()\
.view(bs, -1, self.d_model)
output = self.out(concat)
return output


核算留意力




核算留意力的公式




图解公式


这是另一个咱们需求了解的公式,上面这幅图很好地解说了这个公式。

图中的每个箭头代表了公式的一部分。

首要,咱们要用Q乘以K的转置函数(transpose),然后经过除以d_k的平方根来完结scaled函数。

方程中没有显现的一个进程是masking。在履行Softmax之前,咱们运用mask,削减输入填充(padding)的值。

另一个未显现的进程是dropout,咱们将在Softmax之后运用它。

最终一步是在现在为止的成果和V之间做点积(dot product)。

下面是留意力函数的代码:

def attention(q, k, v, d_k, mask=None, dropout=None):
scores = torch.matmul(q, k.transpose(-2, -1)) / math.sqrt(d_k)
if mask is not None:
mask = mask.unsqueeze(1)
scores = scores.masked_fill(mask == 0, -1e9)
scores = F.softmax(scores, dim=-1)

if dropout is not None:
scores = dropout(scores)

output = torch.matmul(scores, v)
return output


前馈网络


好了,假如你现在现已了解以上部分,咱们就进入最终一步!

这一层由两个线性运算组成,两层中夹有relu和dropout 运算。


class FeedForward(nn.Module):
def __init__(self, d_model, d_ff=2048, dropout = 0.1):
super().__init__()
# We set d_ff as a default to 2048
self.linear_1 = nn.Linear(d_model, d_ff)
self.dropout = nn.Dropout(dropout)
self.linear_2 = nn.Linear(d_ff, d_model)
def forward(self, x):
x = self.dropout(F.relu(self.linear_1(x)))
x = self.linear_2(x)
return x


最终一件事:归一化


在深度神经网络中,归一化是十分重要的。它能够避免层中值改变太多,这意味着模型练习速度更快,具有更好的泛化。



咱们在编码器/解码器的每一层之间归一化咱们的成果,所以在构建咱们的模型之前,让咱们先界说这个函数:


class Norm(nn.Module):
def __init__(self, d_model, eps = 1e-6):
super().__init__()

self.size = d_model
# create two learnable parameters to calibrate normalisation
self.alpha = nn.Parameter(torch.ones(self.size))
self.bias = nn.Parameter(torch.zeros(self.size))
self.eps = eps
def forward(self, x):
norm = self.alpha * (x - x.mean(dim=-1, keepdim=True)) \
/ (x.std(dim=-1, keepdim=True) + self.eps) + self.bias
return norm


把一切内容结合起来!

假如你现已清楚了上述相关细节,那么你就能了解Transformer模型啦。剩余的便是把一切都拼装起来。

让咱们再来看看全体架构,然后开端构建:



最终一个变量:假如你细心看图,你能够看到编码器和解码器周围有一个“Nx”。实际上,上图中的编码器和解码器别离表明编码器的一层和解码器的一层。N是层数的变量。比方,假如N=6,数据经过6个编码器层(如上所示的结构),然后将这些输出传给解码器,解码器也由6个重复的解码器层组成。

现在,咱们将运用上面模型中所示的结构构建编码器层和解码器层模块。在咱们构建编码器和解码器时,咱们能够决议层的数量。

# build an encoder layer with one multi-head attention layer and one # feed-forward layer
class EncoderLayer(nn.Module):
def __init__(self, d_model, heads, dropout = 0.1):
super().__init__()
self.norm_1 = Norm(d_model)
self.norm_2 = Norm(d_model)
self.attn = MultiHeadAttention(heads, d_model)
self.ff = FeedForward(d_model)
self.dropout_1 = nn.Dropout(dropout)
self.dropout_2 = nn.Dropout(dropout)

def forward(self, x, mask):
x2 = self.norm_1(x)
x = x + self.dropout_1(self.attn(x2,x2,x2,mask))
x2 = self.norm_2(x)
x = x + self.dropout_2(self.ff(x2))
return x

# build a decoder layer with two multi-head attention layers and
# one feed-forward layer
class DecoderLayer(nn.Module):
def __init__(self, d_model, heads, dropout=0.1):
super().__init__()
self.norm_1 = Norm(d_model)
self.norm_2 = Norm(d_model)
self.norm_3 = Norm(d_model)

self.dropout_1 = nn.Dropout(dropout)
self.dropout_2 = nn.Dropout(dropout)
self.dropout_3 = nn.Dropout(dropout)

self.attn_1 = MultiHeadAttention(heads, d_model)
self.attn_2 = MultiHeadAttention(heads, d_model)
self.ff = FeedForward(d_model).cuda()
def forward(self, x, e_outputs, src_mask, trg_mask):
x2 = self.norm_1(x)
x = x + self.dropout_1(self.attn_1(x2, x2, x2, trg_mask))
x2 = self.norm_2(x)
x = x + self.dropout_2(self.attn_2(x2, e_outputs, e_outputs,
src_mask))
x2 = self.norm_3(x)
x = x + self.dropout_3(self.ff(x2))
return x
# We can then build a convenient cloning function that can generate multiple layers:
def get_clones(module, N):
return nn.ModuleList([copy.deepcopy(module) for i in range(N)])


咱们现在能够构建编码器和解码器了:

class Encoder(nn.Module):
def __init__(self, vocab_size, d_model, N, heads):
super().__init__()
self.N = N
self.embed = Embedder(vocab_size, d_model)
self.pe = PositionalEncoder(d_model)
self.layers = get_clones(EncoderLayer(d_model, heads), N)
self.norm = Norm(d_model)
def forward(self, src, mask):
x = self.embed(src)
x = self.pe(x)
for i in range(N):
x = self.layers[i](x, mask)
return self.norm(x)

class Decoder(nn.Module):
def __init__(self, vocab_size, d_model, N, heads):
super().__init__()
self.N = N
self.embed = Embedder(vocab_size, d_model)
self.pe = PositionalEncoder(d_model)
self.layers = get_clones(DecoderLayer(d_model, heads), N)
self.norm = Norm(d_model)
def forward(self, trg, e_outputs, src_mask, trg_mask):
x = self.embed(trg)
x = self.pe(x)
for i in range(self.N):
x = self.layers[i](x, e_outputs, src_mask, trg_mask)
return self.norm(x)


Transformer模型构建结束!

class Transformer(nn.Module):
def __init__(self, src_vocab, trg_vocab, d_model, N, heads):
super().__init__()
self.encoder = Encoder(src_vocab, d_model, N, heads)
self.decoder = Decoder(trg_vocab, d_model, N, heads)
self.out = nn.Linear(d_model, trg_vocab)
def forward(self, src, trg, src_mask, trg_mask):
e_outputs = self.encoder(src, src_mask)
d_output = self.decoder(trg, e_outputs, src_mask, trg_mask)
output = self.out(d_output)
return output
# we don't perform softmax on the output as this will be handled
# automatically by our loss function


练习模型


构建完transformer,接下来要做的是用EuroParl数据集进行练习。编码部分十分简略,可是要等两天,模型才会开端converge!

让咱们先来界说一些参数:

d_model = 512
heads = 8
N = 6
src_vocab = len(EN_TEXT.vocab)
trg_vocab = len(FR_TEXT.vocab)
model = Transformer(src_vocab, trg_vocab, d_model, N, heads)
for p in model.parameters():
if p.dim() > 1:
nn.init.xavier_uniform_(p)
# this code is very important! It initialises the parameters with a
# range of values that stops the signal fading or getting too big.
# See this blog for a mathematical explanation.
optim = torch.optim.Adam(model.parameters(), lr=0.0001, betas=(0.9, 0.98), eps=1e-9)


现在,咱们能够开端练习了:

def train_model(epochs, print_every=100):
model.train()
start = time.time()
temp = start

total_loss = 0

for epoch in range(epochs):

for i, batch in enumerate(train_iter):
src = batch.English.transpose(0,1)
trg = batch.French.transpose(0,1)
# the French sentence we input has all words except
# the last, as it is using each word to predict the next

trg_input = trg[:, :-1]

# the words we are trying to predict

targets = trg[:, 1:].contiguous().view(-1)

# create function to make masks using mask code above

src_mask, trg_mask = create_masks(src, trg_input)

preds = model(src, trg_input, src_mask, trg_mask)

optim.zero_grad()

loss = F.cross_entropy(preds.view(-1, preds.size(-1)),
results, ignore_index=target_pad)
loss.backward()
optim.step()

total_loss += loss.data[0]
if (i + 1) % print_every == 0:
loss_avg = total_loss / print_every
print("time = %dm, epoch %d, iter = %d, loss = %.3f,
%ds per %d iters" % ((time.time() - start) // 60,
epoch + 1, i + 1, loss_avg, time.time() - temp,
print_every))
total_loss = 0
temp = time.time()




示例练习输出:经过几天的练习后,模型的丢失函数收敛到了大约1.3。


测验模型

咱们能够运用下面的函数来翻译语句。咱们能够直接输入语句,或许输入自界说字符串。

翻译器经过运转一个循环来作业。咱们对英语语句进行编码。把 token输进解码器,编码器输出。然后,解码器对第一个单词进行猜测,运用 token将其加进解码器的输入。接着,从头运转循环,获取下一个单词猜测,将其参加解码器的输入,直到 token完结翻译。

def translate(model, src, max_len = 80, custom_string=False):
model.eval()
if custom_sentence == True:
src = tokenize_en(src)
sentence=\
Variable(torch.LongTensor([[EN_TEXT.vocab.stoi[tok] for tok
in sentence]])).cuda()
src_mask = (src != input_pad).unsqueeze(-2)
e_outputs = model.encoder(src, src_mask)

outputs = torch.zeros(max_len).type_as(src.data)
outputs[0] = torch.LongTensor([FR_TEXT.vocab.stoi['']])
for i in range(1, max_len):

trg_mask = np.triu(np.ones((1, i, i),
k=1).astype('uint8')
trg_mask= Variable(torch.from_numpy(trg_mask) == 0).cuda()

out = model.out(model.decoder(outputs[:i].unsqueeze(0),
e_outputs, src_mask, trg_mask))
out = F.softmax(out, dim=-1)
val, ix = out[:, -1].data.topk(1)

outputs[i] = ix[0][0]
if ix[0][0] == FR_TEXT.vocab.stoi['']:
break
return ' '.join(
[FR_TEXT.vocab.itos[ix] for ix in outputs[:i]]
)

Transformer模型的构建进程大致便是这样。

推荐阅读