梯度不下降参考图
根据当前q,和其他词的k计算关联度$\alpha$
计算关联度$\\alpha$的两种方式(左边更常见)
过Softmax(也可Relu)得到$\alpha’$
矩阵表示
再根据$\alpha'$和$V$相乘求和求得输出b
每个输入的$q、k、v$再乘上多个矩阵,变成多个$q、k、v$,然后根据每个$q、k、v$去计算不同注意力头的attention,根据attention计算不同的输出$O$(即b向量),最后再将不同头的b向量按列拼接,然后乘上一个$transform$矩阵$W_0$,得到最后的$b$向量。
由于现在设计出的self-attention没有位置信息,所以为了改善这个问题,给每个输入向量,加上一个特定的位置编码向量$e^i$
各种生成位置编码的方式