拼写改正系列
NLP 中文拼写检测实现思路
NLP 中文拼写检测改正算法整理
NLP 英文拼写算法,如果提升 100W 倍的性能?
NLP 中文拼写检测改正 Paper
java 实现中英文拼写检查和错误改正?可我只会写 CRUD 啊!
一个提升英文单词拼写检测性能 1000 倍的算法?
单词拼写改正-03-leetcode edit-distance 72.力扣编辑间隔
NLP 开源项目
nlp-hanzi-similar 汉字相似度
word-checker 中英文拼写检测
pinyin 汉字转拼音
opencc4j 繁简体转换
sensitive-word 敏感词
前言
大家好,我是老马。
下面学习整理一些其他良好小同伴的设计、论文和开源实现。
感受
这是 2018 年的论文,基于混淆集的方式。
局限性比较大,但是不失为一种解决方案。
论文+实现
论文地址: https://aclanthology.org/D18-1273.pdf
源码地址:https://github.com/wdimmy/Automatic-Corpus-Generation
一种混合方法用于中文拼写检查的自动语料生成(EMNLP2018)
该仓库包含了可用于自动生成包含错误的句子的脚本,这些错误的位置和相应的修改可以在没有人工干预的情况下轻松标记。
生成的数据集包含了271,329个句子,最短句子长度为4,最长句子长度为140,均匀长度为42.5,总错误数为381,962,均匀每个句子的错误数为1.4,而且提供了用于未来中文拼写检查研究的混淆集。
注意: 数据集和混淆集将持续更新。
主要库
基本模型
使用我们提出的方法生成数据集后,您可以实验任何您想要的中文拼写检查模型。
在这里,我们实现了一个基于Pytorch的BiLSTM模型,模型中有许多细节可以进一步优化。
- 练习:使用命令行 python main_train.py。练习过程的详细信息将表如今屏幕上。
- 测试:使用命令行 python main_test.py。
注意: 您可以微调超参数或添加更多生成的数据来提高模型的性能。
混淆集
对于给定的单词,混淆集是指与该单词在视觉或语音上相似的一组单词。
例如, 哨:宵诮梢捎俏咪尚悄少销消硝赵逍屑吵噹躺稍峭鞘肖。作为我们方法的“副产品”,我们为全部涉及的正确字符构建了一个混淆集,通过网络每个正确字符的全部错误变体,这在中文拼写检查使命中被广泛使用。我们也将这个混淆集开放,供未来中文拼写检查研究使用。
测试数据集
SIGHAN Bake-off 2013: 链接
SIGHAN Bake-off 2014: 链接
SIGHAN Bake-off 2015: 链接
注意: 上述全部数据集最初是用繁体中文编写的。考虑到我们生成的数据集是简体中文,因此我们已将原始数据集翻译成简体中文版本,可以在Data文件夹中找到。
我们用来将繁体中文转换为简体中文的工具是OpenCC。
引用
如果您觉得该实现有用,请引用以下论文:
《一种混合方法用于中文拼写检查的自动语料生成》- @InProceedings{Reimers:2018:EMNLP,
- author = {DingminWang, Yan Song, Jing Li, Jialong Han, Haisong Zhang},
- title = {{A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check}},
- booktitle = {Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (EMNLP)},
- month = {11},
- year = {2018},
- address = {Brussels, Belgium},
- }
复制代码 接洽方式
如有任何问题,请通过电子邮件接洽我(Dingmin Wang):wangdimmy (AT) gmail.com。
参考资料
https://github.com/wdimmy/Automatic-Corpus-Generation/blob/master/README.md
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |