一个好的位置编码应该有三个特点

1.Inductive: 能处理比训练数据中的最长序列还要长的序列的能力

.2.数据驱动的:位置编码能从数据中学习出来

3.Parameter Efficient: 用来训练的参数应该避免过多,以防增加模型体量,降低泛化能力

FLOATER在每层都加入了位置编码,并且和预先准备的正弦编码不同,FLOATER的参数是需要学习的,而且多层间参数共享,不需要提前给定输入最大长度,适应各种长度。