NLP 中文拼写检测纠正论文-01-介绍了SIGHAN 2015 包括任务形貌,数据预备, ...

打印 上一主题 下一主题

主题 756|帖子 756|积分 2268

拼写纠正系列

NLP 中文拼写检测实现思路
NLP 中文拼写检测纠正算法整理
NLP 英文拼写算法,假如提升 100W 倍的性能?
NLP 中文拼写检测纠正 Paper
java 实现中英文拼写检查和错误纠正?可我只会写 CRUD 啊!
一个提升英文单词拼写检测性能 1000 倍的算法?
单词拼写纠正-03-leetcode edit-distance 72.力扣编辑间隔
NLP 开源项目

nlp-hanzi-similar 汉字相似度
word-checker 中英文拼写检测
pinyin 汉字转拼音
opencc4j 繁简体转换
sensitive-word 敏感词
论文地点

可以参考:https://paperswithcode.com/task/chinese-spell-checking
摘要

本文介绍了SIGHAN 2015 拼写中文拼写检查,包括任务形貌,数据预备, 绩效指标和评估效果。
比赛揭示了当前处理中文拼写检查的最新NLP技能。
所有此次测试中使用的带有黄金标准和评估工具的数据集可公开获取,以备将来研究之用。
介绍

中文拼写检查器相对较难开发,部分原因是中文单词之间不存在单词定界符,并且中文单词只能包罗单个字符或多个字符。
此外,还有超过13,000个汉字,而不是英文的26个字母,每个字母都有自己的上下文构成一个故意义的中文单词。
所有这些使中文拼写检查成为一项困难的任务。
一项实证分析表明,中文拼写错误通常是由多个字符单词之间的混淆引起的,这些单词在语音和视觉上相似,但在语义上却截然不同(Liu等,2011)。
自动拼写检查器应具有以下两项功能:
识别拼写错误,并建议错误用法的正确字符。
SIGHAN 2013年中国拼写检查竞赛是第一个提供数据集作为中国拼写检查员绩效评估基准的活动(Wu等人,2013)。
SIGHAN 2013中的数据来自中国母语人士撰写的论文。
根据第一次评估的履历,在CIPS-SIGHAN CLP-2014联合集会上举行了第二次评估,集会重点是汉语作为外语(CFL)的学习者撰写的论文(Yu等,2014)。 。
由于在CFL leaners书面论文中检测和纠正拼写错误方面面对的更大挑战,SIGHAN 2015 Bake-off再次具有中文拼写检查任务,为自动中文拼写检查器的开发和实行提供评估平台。
给定由几句话组成的段落,检查人员应识别所有可能的拼写错误,突出显示其位置并提出可能的更正
本文的其余部分安排如下。
第2部分概述了SIGHAN 2015年中文拼写检查的流程。
第三部分介绍了开发的数据集。
第4节提出了评估指标。
第5节比较了各个参赛者的效果。
末了,我们在结论中总结了本文,并在第6节中提供了未来的研究方向。
任务形貌

这项任务的目标是评估中文拼写检查器的功能。
输入的段落包罗几个有/没有拼写错误的句子。
检查器应返回错误字符的位置并建议正确的字符。
每个字符或标点符号占用1个点举行计数
位置。
输入实例具有唯一的通道编号pid。
假如句子中没有拼写错误,则检查器应返回“ pid,0”。
假如输入段落中至少包罗一个拼写错误,则输出格式为 “pid [, location, correction]+” ,其中符号“ +”表现存在一个或多个预测元素的实例
“ [,位置,更正]”。
“位置”和“更正”分别表现不正确字符的位置及其正确版本。
例子如下。


  • Example 1
  1. Input: (pid=A2-0047-1) 我真的洗碗我可以去看你
  2. Output: A2-0047-1, 4, 希, 5, 望
复制代码
这里现实是音近字。
xiwan
xiwang
所以中文纠错真的更难了--

  • Example 2
  1. Input: (pid=B2-1670-2) 在日本,大學生打工的情況是相當普偏的。
  2. Output: B2-1670-2, 17, 遍
复制代码


这个是形近字

  • Example 3
  1. Input: (pid=B2-1903-7) 我也是你的朋友,我會永遠在你身邊。
  2. Output: B2-1903-7, 0
复制代码
Ex中有2个错误的字符。
1,正确的字符“希”和“望”应分别在位置4和5中使用。
在Ex。 2,第17个字符“偏”是错误的,应为“遍”。
位置“ 0”表现Ex。中没有拼写错误。 3
资料预备

用于我们任务的学习者语料库是从在台湾管理的基于计算机的汉语作为外语考试(TOCFL)的论文部分中网络的。
拼写错误是由受过训练的中文母语者手动注释的,他们还会提供与每个错误对应的更正。
然后将论文分为以下三组
(1)训练集:该训练集包括970篇精选论文,总共3,143个拼写错误。
每篇文章以SGML格式表现,如图1所示。
title属性用于形貌文章主题。
每个段落由几个句子组成,每个段落至少包罗一个拼写错误,并且数据既指示错误的位置,又指示相应的更正。
这套文章中的所有文章都用于训练已开发的拼写检查器
(2)Dryrun SET
共有39篇文章提供给参与者,使他们认识终极的测试过程。
每个参与者可以提交使用不同模型生成的多个运行,并使用其检查器的不同参数设置。
除了确保可以正确评估提交的效果之外,参与者还可以在试运行阶段微调其开发的模型。
空运行的目标是仅验证提交的输出格式,官方评估中未考虑空运行效果
(3)测试集
这套包罗1100条测试段落。
这些段落中有一半没有拼写错误,而另一半则至少包罗一个拼写错误。
评估以公开测试的形式举行。
除了提供的数据集外,还允许注册的参与者团队使用任何语言和计算资源来检测和纠正拼写错误。
此外,由CFL学习者撰写的文章可能会产生语法错误,单词遗漏或多余,单词选择不正确或单词次序问题。
所讨论的任务仅专注于拼写错误纠正。
  1. <ESSAY title="學中文的第一天">
  2. <TEXT>
  3. <PASSAGE id="A2-0521-1"> 這位小姐說:你應
  4. 該一直走到十只路口,再右磚一直走經過一家銀
  5. 行就到了。</PASSAGE>
  6. <PASSAGE id="A2-0521-2">應為今天是第一天,
  7. 老師先請學生自己給介紹。</PASSAGE>
  8. </TEXT>
  9. <MISTAKE id="A2-0521-1" location="15">
  10. <WRONG>十只路口</WRONG>
  11. <CORRECTION>十字路口</CORRECTION>
  12. </MISTAKE>
  13. <MISTAKE id="A2-0521-1" location="21">
  14. <WRONG>右磚</WRONG>
  15. <CORRECTION>右轉</CORRECTION>
  16. </MISTAKE>
  17. <MISTAKE id="A2-0521-2" location="1">
  18. <WRONG>應為</WRONG>
  19. <CORRECTION>因為</CORRECTION>
  20. </MISTAKE>
  21. </ESSAY>
复制代码
结论与未来工作

本文概述了SIGHAN 2015年中文拼写检查的概况,包括任务计划,数据预备,评估指标,性能评估效果以及参与团队使用的方法。
无论现实表现怎样,所有提交的内容都有助于探求有效的中文拼写检查程序的知识,并且Bake-off程序中的各个报告提供了对中文处理的有用见解。
我们希望为此Bakeoff网络的数据集可以促进并加快有效的中文拼写检查程序的未来开发。
因此,所有具有黄金标准和评估工具的数据集均可在 http://ir.itc.ntnu.edu.tw/lre/sighan8csc.html 上公开得到。
未来的方向集中在中文语法错误纠正的发展上。
我们计划创建新的语言资源,以帮助改进现有的计算机辅助中文学习技能。
此外,将从CFL学习者那里得到的新数据集将举行调查,以进一步丰富该研究主题。
个人感受

这篇 paper 虽然没有说具体的实现方式,但是整体的评估思路是提供了的。
而且也说了大概的实现方式,基于 HMM 或者 CRF 的方式。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

花瓣小跑

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表