用户名
Email
论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
帖子
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com技术社区
»
论坛
›
数据库
›
分布式数据库
›
【王树森】RNN模子与NLP应用(7/9):机器翻译与Seq2Seq模 ...
【王树森】RNN模子与NLP应用(7/9):机器翻译与Seq2Seq模子(个人向条记) ...
我爱普洱茶
论坛元老
|
2024-9-4 05:34:13
|
显示全部楼层
|
阅读模式
楼主
主题
1737
|
帖子
1737
|
积分
5211
Machine Translation Data
做机器学习使命的第一步都是处置处罚数据,我们起首需要准备机器翻译的数据。
由于我们是学习用途,因此拿一个小规模数据集即可:http://www.manythings.org/anki/
下面的数据集中:一个英语句子对应多个德语句子,如果翻译的时间能命中其中的一个则算作完全正确。
1. Preprocessing
将大写全部转化为小写
去掉标点符号
2. Tokenization & Build Dictionary
我们分别需要两个Tokenizer,一个英语Tokenizer和一个德语Tokenizer
英语的text最后经过英语Tokenizer转化为 input_tokens
德语的text经过德语Tokenizer转化为target_tokens
在Tokenization后需要建立两个字典,一个英语字典和一个德语字典
Tokenization既可以是char-level的,也可以是word-level的
本节课使用的是char-level的Tokenization
但是实际的机器翻译都是用word-level的,因为它们的数据集足够大
Question:为什么要用两个差异的Tokenizer?
答案是在char-level中,语言有差异的char,如下图所示:英语和德语的char总数并不相同,希腊语也雷同:
而在word-level的环境下则更需要两个了,原因是:①词汇完全不一样。②分词方法差异。
下面是经过Tokenizaion后的字典:其中 \t 是起始符,\n是终止符。选用其他的字符也行,只要反面已有的冲突即可。
3. One-Hot Encoding
经过上面的Tokenize后,我们可以将一段text通过字典转化为一个个数
接下来我们把每一个数字用一个One-Hot向量表示如下:
Training the Seq2Seq Model
LSTM Encode用于提取输入英文文本的信息,它将这句话的最后状态信息作为输入传到LSTM Decoder
LSTM Decoder用于天生德语,这其实就是上节课讲到的文本天生器,只不外区别在于这里的文本天生器的初始向量为LSTM Encoder,接受了输入的英语文本的特征作为初始状态,Decoder通过被输入的这个状态来指导这句英语是 go away
LSTM Decoder作为一个文本翻译器,那么它需要每次接受一个输入,然后输出对下一个字符的预测。
LSTM Decoder第一个输入必须是起始符,这也是为什么需要定义一个起始符的原因
起始符背面预测的字母为m,我们对m作One-Hot Encoding,作为标签y和预测的概率p一起传入交织熵丧失函数,我们盼望p只管靠近y,以是丧失越小越好。如许我们就可以利用反向传播计算梯度,梯度会传到Decoder,然后顺着Decoder传到Encoder,利用梯度下降即可更新Decoder和Encoder的参数。
我们不断重复这个过程,直到这句德语被预测完
Seq2Seq Model in Keras
最后对Dense作反向传播的时间可以顺着这张图的链路不停传到Encoder和Decoder
Inference
在预测时,我们用LSTM Encoder把go away转化为状态向量指导Decoder进行翻译。
而Decoder则是从 \t(起始符)开始对整句德语进行预测,过程和上节课讲到的文本天生器一致,直到遇到终止符 \n。
Summary
How to Improve
1. Bi-LSTM instead of LSTM(Encoder only!)
Encoder对一个句子只取最后的谁人状态向量,最后的状态向量包罗句子的所有信息
如果句子很长的话就会导致忘记,导致传入的英语文本信息不全导致遗漏
可以想到用双向LSTM来增长LSTM的影象力
注意Decoder不能用双向,由于文本天生使命的原因,Decoder只能单向
2. Word-level Tokenization
本节课用的时char-level比较方便,但是会导致一个句子比较长,轻易导致LSTM的忘记
如果用word-level的话,token的长度会收缩四到五倍,比较轻易避免忘记
但是如许的话需要一个额外的Embedding层,如许就需要大量的数据来对Embedding层的参数进行训练
若训练数据不敷而Embedding层的参数又过多就会导致过拟合,如许就还可能需要额外的预训练
3. Multi-Task Learning
在使命里多加一个训练从英语到英语的使命,如许在数据量稳固的环境下,可训练的数据就多了一倍,如许Encoder会被训练得更好
还可以增长更多的使命,好比训练英语到其他语言的翻译,固然增长了更多Decoder,而且德语Decoder没有改进,但是Encoder只有一个,如许可以更好的训练Encoder。翻译效果照旧会提升。
4. Attention
下节课!
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
我爱普洱茶
论坛元老
这个人很懒什么都没写!
楼主热帖
事务
KAFKA EAGLE 监控MRS kafka之操作实践 ...
Java 中怎样将 bytes 转换为 long 类型 ...
大数据揭秘丨疫情影响下亚马逊女性夹克 ...
初学Vue(全家桶)-第16天(vue-router ...
Metasploit(msf)利用ms17_010(永恒 ...
OpenHarmony轻量系统开发【1】初始Open ...
信息系统安全运维整改参考
如何优雅的备份MySQL数据?看这篇文章 ...
Python教程:高级特性
标签云
集成商
AI
运维
CIO
存储
服务器
浏览过的版块
SQL-Server
登录参与点评抽奖加入IT实名职场社区
下次自动登录
忘记密码?点此找回!
登陆
新用户注册
用其它账号登录:
关闭
快速回复
返回顶部
返回列表