ToB企服应用市场:ToB评测及商务社交产业平台

标题: 敏感词 v0.23.0 结果条件拓展,内置支持链式+单词标签 [打印本页]

作者: 天空闲话    时间: 2024-12-22 16:23
标题: 敏感词 v0.23.0 结果条件拓展,内置支持链式+单词标签
开源项目

敏感词焦点 https://github.com/houbb/sensitive-word
敏感词控台 https://github.com/houbb/sensitive-word-admin
版本特性

各人好,我是老马。
有时候我们得到敏感词以后,想要进一步处理。比如只关心某些标签的敏感词,要如何实现呢?
V0.23.0 针对结果处理做了进一步增强。
结果条件拓展内置支持 wordTags(单词标签) 和 chains(链式调用)。
快速开始

maven 引入
  1. <dependency>
  2.     <groupId>com.github.houbb</groupId>
  3.     <artifactId>sensitive-word</artifactId>
  4.     <version>0.23.0</version>
  5. </dependency>
复制代码
wordResultCondition-针对匹配词进一步判断

说明

支持版本:v0.13.0
有时候我们可能盼望对匹配的敏感词进一步限制,比如虽然我们界说了【av】作为敏感词,但是不盼望【have】被匹配。
就可以自界说实现 wordResultCondition 接口,实现自己的策略。
系统内置的策略在 WordResultConditions#alwaysTrue() 恒为真,WordResultConditions#englishWordMatch() 则要求英文必须全词匹配。
内置策略

WordResultConditions 工具类可以获取匹配策略
实现说明支持版本alwaysTrue恒为真englishWordMatch英文单词全词匹配v0.13.0englishWordNumMatch英文单词/数字全词匹配v0.20.0wordTags满足特定标签的,比如只关注【广告】标签v0.23.0chains(IWordResultCondition ...conditions)支持指定多个条件,同时满足v0.23.0使用例子

原始的默认情况:
  1. final String text = "I have a nice day。";
  2. List<String> wordList = SensitiveWordBs.newInstance()
  3.         .wordDeny(new IWordDeny() {
  4.             @Override
  5.             public List<String> deny() {
  6.                 return Collections.singletonList("av");
  7.             }
  8.         })
  9.         .wordResultCondition(WordResultConditions.alwaysTrue())
  10.         .init()
  11.         .findAll(text);
  12. Assert.assertEquals("[av]", wordList.toString());
复制代码
我们可以指定为英文必须全词匹配。
  1. final String text = "I have a nice day。";
  2. List<String> wordList = SensitiveWordBs.newInstance()
  3.         .wordDeny(new IWordDeny() {
  4.             @Override
  5.             public List<String> deny() {
  6.                 return Collections.singletonList("av");
  7.             }
  8.         })
  9.         .wordResultCondition(WordResultConditions.englishWordMatch())
  10.         .init()
  11.         .findAll(text);
  12. Assert.assertEquals("[]", wordList.toString());
复制代码
当然可以根据必要实现更加复杂的策略。
wordTags 单词标签

支持版本: v0.23.0
我们可以只返回隶属于某一种标签的敏感词。
我们指定了两个敏感词:商品、AV
MyWordTag 是我们界说的一个敏感词标签实现:
  1. /**
  2. * 自定义单词标签
  3. * @since 0.23.0
  4. */
  5. public class MyWordTag extends AbstractWordTag {
  6.     private static Map<String, Set<String>> dataMap;
  7.     static {
  8.         dataMap = new HashMap<>();
  9.         dataMap.put("商品", buildSet("广告", "中文"));
  10.         dataMap.put("AV", buildSet("色情", "单词", "英文"));
  11.     }
  12.     private static Set<String> buildSet(String... tags) {
  13.         Set<String> set = new HashSet<>();
  14.         for(String tag : tags) {
  15.             set.add(tag);
  16.         }
  17.         return set;
  18.     }
  19.     @Override
  20.     protected Set<String> doGetTag(String word) {
  21.         return dataMap.get(word);
  22.     }
  23. }
复制代码
测试用比方下,我们模拟了两个不同的实现类,每一个关注的单词标签不同。
  1. // 只关心SE情
  2. SensitiveWordBs sensitiveWordBsYellow = SensitiveWordBs.newInstance()
  3.         .wordDeny(new IWordDeny() {
  4.             @Override
  5.             public List<String> deny() {
  6.                 return Arrays.asList("商品", "AV");
  7.             }
  8.         })
  9.         .wordAllow(WordAllows.empty())
  10.         .wordTag(new MyWordTag())
  11.         .wordResultCondition(WordResultConditions.wordTags(Arrays.asList("色情")))
  12.         .init();
  13. // 只关心广告
  14. SensitiveWordBs sensitiveWordBsAd = SensitiveWordBs.newInstance()
  15.         .wordDeny(new IWordDeny() {
  16.             @Override
  17.             public List<String> deny() {
  18.                 return Arrays.asList("商品", "AV");
  19.             }
  20.         })
  21.         .wordAllow(WordAllows.empty())
  22.         .wordTag(new MyWordTag())
  23.         .wordResultCondition(WordResultConditions.wordTags(Arrays.asList("广告")))
  24.         .init();
  25. final String text = "这些 AV 商品什么价格?";
  26. Assert.assertEquals("[AV]", sensitiveWordBsYellow.findAll(text).toString());
  27. Assert.assertEquals("[商品]", sensitiveWordBsAd.findAll(text).toString());
复制代码
小结

盼望本文对你有所帮助,假如喜欢,欢迎点赞收藏转发一波。
我是老马,期待与你的下次相遇。
敏感词系列

sensitive-word-admin 敏感词控台 v1.2.0 版本开源
sensitive-word-admin v1.3.0 发布 如何支持分布式部署?
01-开源敏感词工具入门使用
02-如何实现一个敏感词工具?违禁词实现思绪梳理
03-敏感词之 StopWord 停止词优化与特殊符号
04-敏感词之字典瘦身
05-敏感词之 DFA 算法(Trie Tree 算法)详解
06-敏感词(脏词) 如何忽略偶然义的字符?达到更好的过滤效果
v0.10.0-脏词分类标签初步支持
v0.11.0-敏感词新特性:忽略偶然义的字符,词标签字典
v0.12.0-敏感词/脏词词标签能力进一步增强
v0.13.0-敏感词特性版本发布 支持英文单词全词匹配
v0.16.1-敏感词新特性之字典内存资源释放
v0.19.0-敏感词新特性之敏感词单个编辑,不必重复初始化
v0.20.0 敏感词新特性之数字全部匹配,而不是部门匹配
v0.21.0 敏感词新特性之白名单支持单个编辑,修正白名单包含黑名单时的问题
v0.23.0 敏感词新特性之结果条件拓展,内置支持链式+单词标签
v0.24.0 新特性支持标签分类,内置实现多种策略

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4