【王树森】RNN模子与NLP应用(7/9)：机器翻译与Seq2Seq模子（个人向条记） ...

我爱普洱茶 · 2024-9-4 05:34:13

Machine Translation Data

1. Preprocessing

2. Tokenization & Build Dictionary

3. One-Hot Encoding

Training the Seq2Seq Model

LSTM Encode用于提取输入英文文本的信息，它将这句话的最后状态信息作为输入传到LSTM Decoder
LSTM Decoder用于天生德语，这其实就是上节课讲到的文本天生器，只不外区别在于这里的文本天生器的初始向量为LSTM Encoder，接受了输入的英语文本的特征作为初始状态，Decoder通过被输入的这个状态来指导这句英语是 go away
LSTM Decoder作为一个文本翻译器，那么它需要每次接受一个输入，然后输出对下一个字符的预测。
LSTM Decoder第一个输入必须是起始符，这也是为什么需要定义一个起始符的原因
起始符背面预测的字母为m，我们对m作One-Hot Encoding，作为标签y和预测的概率p一起传入交织熵丧失函数，我们盼望p只管靠近y，以是丧失越小越好。如许我们就可以利用反向传播计算梯度，梯度会传到Decoder，然后顺着Decoder传到Encoder，利用梯度下降即可更新Decoder和Encoder的参数。
我们不断重复这个过程，直到这句德语被预测完

Seq2Seq Model in Keras

最后对Dense作反向传播的时间可以顺着这张图的链路不停传到Encoder和Decoder

Inference

Summary

How to Improve

1. Bi-LSTM instead of LSTM(Encoder only!)

2. Word-level Tokenization

3. Multi-Task Learning

在使命里多加一个训练从英语到英语的使命，如许在数据量稳固的环境下，可训练的数据就多了一倍，如许Encoder会被训练得更好
还可以增长更多的使命，好比训练英语到其他语言的翻译，固然增长了更多Decoder，而且德语Decoder没有改进，但是Encoder只有一个，如许可以更好的训练Encoder。翻译效果照旧会提升。

4. Attention

下节课！

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

用户名		自动登录	找回密码
密码			立即注册

0 个回复