【王树森】RNN模子与NLP应用(7/9):机器翻译与Seq2Seq模子(个人向条记) ...

打印 上一主题 下一主题

主题 1737|帖子 1737|积分 5211

Machine Translation Data



  • 做机器学习使命的第一步都是处置处罚数据,我们起首需要准备机器翻译的数据。
  • 由于我们是学习用途,因此拿一个小规模数据集即可:http://www.manythings.org/anki/
  • 下面的数据集中:一个英语句子对应多个德语句子,如果翻译的时间能命中其中的一个则算作完全正确。

1. Preprocessing



  • 将大写全部转化为小写
  • 去掉标点符号

2. Tokenization & Build Dictionary



  • 我们分别需要两个Tokenizer,一个英语Tokenizer和一个德语Tokenizer
  • 英语的text最后经过英语Tokenizer转化为 input_tokens
  • 德语的text经过德语Tokenizer转化为target_tokens
  • 在Tokenization后需要建立两个字典,一个英语字典和一个德语字典
  • Tokenization既可以是char-level的,也可以是word-level的

  • 本节课使用的是char-level的Tokenization
  • 但是实际的机器翻译都是用word-level的,因为它们的数据集足够大

    Question:为什么要用两个差异的Tokenizer?
    答案是在char-level中,语言有差异的char,如下图所示:英语和德语的char总数并不相同,希腊语也雷同:

    而在word-level的环境下则更需要两个了,原因是:①词汇完全不一样。②分词方法差异。
  • 下面是经过Tokenizaion后的字典:其中 \t 是起始符,\n是终止符。选用其他的字符也行,只要反面已有的冲突即可。

3. One-Hot Encoding



  • 经过上面的Tokenize后,我们可以将一段text通过字典转化为一个个数

  • 接下来我们把每一个数字用一个One-Hot向量表示如下:


Training the Seq2Seq Model



  • LSTM Encode用于提取输入英文文本的信息,它将这句话的最后状态信息作为输入传到LSTM Decoder
  • LSTM Decoder用于天生德语,这其实就是上节课讲到的文本天生器,只不外区别在于这里的文本天生器的初始向量为LSTM Encoder,接受了输入的英语文本的特征作为初始状态,Decoder通过被输入的这个状态来指导这句英语是 go away
  • LSTM Decoder作为一个文本翻译器,那么它需要每次接受一个输入,然后输出对下一个字符的预测。
  • LSTM Decoder第一个输入必须是起始符,这也是为什么需要定义一个起始符的原因
  • 起始符背面预测的字母为m,我们对m作One-Hot Encoding,作为标签y和预测的概率p一起传入交织熵丧失函数,我们盼望p只管靠近y,以是丧失越小越好。如许我们就可以利用反向传播计算梯度,梯度会传到Decoder,然后顺着Decoder传到Encoder,利用梯度下降即可更新Decoder和Encoder的参数。
  • 我们不断重复这个过程,直到这句德语被预测完

Seq2Seq Model in Keras

最后对Dense作反向传播的时间可以顺着这张图的链路不停传到Encoder和Decoder


Inference



  • 在预测时,我们用LSTM Encoder把go away转化为状态向量指导Decoder进行翻译。

  • 而Decoder则是从 \t(起始符)开始对整句德语进行预测,过程和上节课讲到的文本天生器一致,直到遇到终止符 \n。



Summary



How to Improve

1. Bi-LSTM instead of LSTM(Encoder only!)



  • Encoder对一个句子只取最后的谁人状态向量,最后的状态向量包罗句子的所有信息
  • 如果句子很长的话就会导致忘记,导致传入的英语文本信息不全导致遗漏
  • 可以想到用双向LSTM来增长LSTM的影象力
  • 注意Decoder不能用双向,由于文本天生使命的原因,Decoder只能单向

2. Word-level Tokenization



  • 本节课用的时char-level比较方便,但是会导致一个句子比较长,轻易导致LSTM的忘记
  • 如果用word-level的话,token的长度会收缩四到五倍,比较轻易避免忘记
  • 但是如许的话需要一个额外的Embedding层,如许就需要大量的数据来对Embedding层的参数进行训练
  • 若训练数据不敷而Embedding层的参数又过多就会导致过拟合,如许就还可能需要额外的预训练

3. Multi-Task Learning



  • 在使命里多加一个训练从英语到英语的使命,如许在数据量稳固的环境下,可训练的数据就多了一倍,如许Encoder会被训练得更好

  • 还可以增长更多的使命,好比训练英语到其他语言的翻译,固然增长了更多Decoder,而且德语Decoder没有改进,但是Encoder只有一个,如许可以更好的训练Encoder。翻译效果照旧会提升。


4. Attention

下节课!

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

我爱普洱茶

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表