方向

进度

数据预处理

中英平行语料(新闻)

先根据jieba库对中文的平行语料进行分词,用fairseq的normalize-punctuation(标点符号的标准化)和tokenizer进行标记化处理(1.将英文单词与标点符号用空格分开 2.将多个连续空格简化为一个空格 3.将很多符号替换成转义字符),然后bpe处理,得到词表和更细粒度的分词。

英文没做分词,做了norm和token,还没做bpe,

中文单语语料(生活用语)

做了分词

模型方案