一个好的位置编码应该有三个特点
1.Inductive: 能处理比训练数据中的最长序列还要长的序列的能力
.2.数据驱动的:位置编码能从数据中学习出来
3.Parameter Efficient: 用来训练的参数应该避免过多,以防增加模型体量,降低泛化能力
FLOATER在每层都加入了位置编码,并且和预先准备的正弦编码不同,FLOATER的参数是需要学习的,而且多层间参数共享,不需要提前给定输入最大长度,适应各种长度。