IT评测·应用市场-qidao123.com技术社区

标题: 开源中文的繁简体转换 opencc4j-04-香港地域转换支持 [打印本页]

作者: 天空闲话    时间: 2025-4-13 11:01
标题: 开源中文的繁简体转换 opencc4j-04-香港地域转换支持
Opencc4j

Opencc4j 支持中文繁简体转换,考虑到词组级别。
开源中文的繁简体转换 opencc4j-01-使用入门概览
开源中文的繁简体转换 opencc4j-02-一个汉字竟然对应两个 char?
开源中文的繁简体转换 opencc4j-03-简体还是繁体,你说了算!
开源中文的繁简体转换 opencc4j-04-香港地域转换支持
开源中文的繁简体转换 opencc4j-05-日文转换支持
Features 特点

香港异体字的转换

对于中国台|湾的的转换支持很早就实现了,非常感谢一个湾湾的研发小同伴。
但是香港地域的一直没有实现,不外还是会受到一些相干需求。
我看只有台湾,请问下有香港的繁体转化支持吗
虽然不太懂香港地域的用字习惯,但是还是硬着头皮上了。
实现流程

opencc

opencc 支持的设置文件为:
s2hk.json Simplified Chinese to Traditional Chinese (Hong Kong variant) 簡體到香港繁體
hk2s.json Traditional Chinese (Hong Kong variant) to Simplified Chinese 香港繁體到簡體
t2hk.json Traditional Chinese (OpenCC Standard) to Hong Kong variant 繁體(OpenCC 標準)到香港繁體
核心流程

这里的簡體到香港繁體,实际上经历了两个步骤:
  1. 标准简体=》标准繁体==》香港异体字处理
复制代码
以是转换这个不分,我们在繁体的基础上,拓展一下对应的处置处罚。
中国香港繁体和大陆简体转换

说明

v1.12.0 版本支持。
为包管方法的一致性,引入 ZhHkConverterUtil 工具类,支持方法和 ZhConverterUtil 保持一致。
例子
  1. /**
  2. * 大陆简体==>香港正體
  3. * @since 1.12.0
  4. */
  5. @Test
  6. public void testHkTraditional() {
  7.     String original = "千家万户瞳瞳日 总把新桃换旧符";
  8.     String result = ZhHkConverterUtil.toTraditional(original);
  9.     Assert.assertEquals("千家萬户瞳瞳日 總把新桃換舊符", result);
  10. }
  11. /**
  12. * 香港正體==>大陆简体
  13. */
  14. @Test
  15. public void testHkSimple() {
  16.     String original = "千家萬户瞳瞳日 總把新桃換舊符";
  17.     String result = ZhHkConverterUtil.toSimple(original);
  18.     Assert.assertEquals("千家万户瞳瞳日 总把新桃换旧符", result);
  19. }
复制代码
小结

到这里,会发现从前本身的接口计划的不够优雅,拓展起来有些麻烦。
当然,这些都是后话,以后有时间再做对应的改造。
我是老马,期待与你的下次重逢。
拓展阅读

pinyin 汉字转拼音
pinyin2hanzi 拼音转汉字
segment 高性能中文分词
opencc4j 中文繁简体转换
nlp-hanzi-similar 汉字相似度
word-checker 拼写检测
sensitive-word 敏感词

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com技术社区 (https://dis.qidao123.com/) Powered by Discuz! X3.4