需要注意的点
[1] Recurrent Neural Network Regularization (<https://arxiv.org/abs/1409.2329>)
#在纵向实现dropout,从而使得每一层RNN仍然能够记忆之前的隐藏层含义
[2] Using the Output Embedding to Improve Language Models (<https://arxiv.org/abs/1608.05859>)
[3] Tying Word Vectors and Word Classifiers (<https://arxiv.org/pdf/1611.01462.pdf>)
RNN结构
由于使用了截断的方式,因此进行学习时,还是会受到文本长度的限制,只能记忆有限的模式