方向

[x] T5baseline
[x] 预训练方法
[x] 参数平均
[x] 加断点，晚上偷偷训练(本来就有)
[x] 根据语料库构建自己的词表(尝试复现字节跳动的VOLT)
[x] 把base代码确定下来，定下预训练的代码框架
[x] 先跑个demo
[x] R-drop
[x] Copy
[x] Edit
[x] 相似Embedding

进度

数据预处理

中英平行语料(新闻)

先根据jieba库对中文的平行语料进行分词，用fairseq的normalize-punctuation(标点符号的标准化)和tokenizer进行标记化处理（1.将英文单词与标点符号用空格分开 2.将多个连续空格简化为一个空格 3.将很多符号替换成转义字符），然后bpe处理，得到词表和更细粒度的分词。

英文没做分词，做了norm和token，还没做bpe，

中文单语语料(生活用语)

做了分词

方向

进度

数据预处理

中英平行语料(新闻)

中文单语语料(生活用语)

模型方案