方向
- [x] T5baseline
- [x] 预训练方法
- [x] 参数平均
- [x] 加断点,晚上偷偷训练(本来就有)
- [x] 根据语料库构建自己的词表(尝试复现字节跳动的VOLT)
- [x] 把base代码确定下来,定下预训练的代码框架
- [x] 先跑个demo
- [x] R-drop
- [x] Copy
- [x] Edit
- [x] 相似Embedding
进度
数据预处理
中英平行语料(新闻)
先根据jieba库对中文的平行语料进行分词,用fairseq的normalize-punctuation(标点符号的标准化)和tokenizer进行标记化处理(1.将英文单词与标点符号用空格分开 2.将多个连续空格简化为一个空格 3.将很多符号替换成转义字符),然后bpe处理,得到词表和更细粒度的分词。
英文没做分词,做了norm和token,还没做bpe,
中文单语语料(生活用语)
做了分词
模型方案