https://s3-us-west-2.amazonaws.com/secure.notion-static.com/a1230fc2-19a2-497e-8fcc-edada676000f/20210405150601235.png

                                                                               梯度不下降参考图

Self-attention

步骤

根据当前q,和其他词的k计算关联度$\alpha$

                                                                                             计算关联度$\alpha$的两种方式(左边更常见)

                                                                                         计算关联度$\\alpha$的两种方式(左边更常见)

过Softmax(也可Relu)得到$\alpha’$

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/2f59d9f2-ec02-4f9b-b473-3543fc7842e9/4C2334E9-0EF8-4B37-8F7A-9A611BD246CF.jpeg

                                                                                                    矩阵表示

                                                                                                矩阵表示

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/f7b86934-2472-4a20-a2e6-eacc31f69769/59925F61-7E37-459D-9F48-0DA429930262.jpeg

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/b92f1567-36b5-4137-85b9-28ab32e4f459/7061E008-491A-4815-99B3-992AD46EFB75.jpeg

再根据$\alpha'$和$V$相乘求和求得输出b

Multi-head

每个输入的$q、k、v$再乘上多个矩阵,变成多个$q、k、v$,然后根据每个$q、k、v$去计算不同注意力头的attention,根据attention计算不同的输出$O$(即b向量),最后再将不同头的b向量按列拼接,然后乘上一个$transform$矩阵$W_0$,得到最后的$b$向量。

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/c19c0336-5b27-42aa-aa52-cf7404249d95/Untitled.png

改善:位置编码

由于现在设计出的self-attention没有位置信息,所以为了改善这个问题,给每个输入向量,加上一个特定的位置编码向量$e^i$

各种生成位置编码的方式

各种生成位置编码的方式

其他应用