03-Elasticsearch之分词器

打印 上一主题 下一主题

主题 1661|帖子 1661|积分 4983

七、分词器

7.1、分词器介绍

了解分词器的概念


  • 分词器(Analyzer)是将一段文本,按照一定逻辑,拆分成多个词语的一种工具,如下所示

    • 华为手机  --->   华为、手、手机

  • ElasticSearch 内置分词器有以下几种

    • Standard Analyzer

      • 默认分词器,按词/字切分,小写处理 (英文)华 为 手 机

    • Simple Analyzer

      • 按照非字母切分(符号被过滤),小写处理

    • Stop Analyzer

      • 小写处理,停用词过滤(the,a,is)

    • Whitespace Analyzer

      • 按照空格切分,不转小写

    • Keyword Analyzer

      • 不分词,直接将输入当作输出

    • Patter Analyzer

      • 正则表达式,默认\W+(非字符分割) (中文会被去掉)

    • Language

      • 提供了30多种常见语言的分词器


  • ES提供了一个接口给我们来验证分词效果,如下所示

      1. # 分词效果验证
      2. GET _analyze
      3. {
      4.   "text": "我爱写代码",
      5.   "analyzer": "standard"
      6. }
      复制代码
    • 分词效果如下所示



    • Elasticsearch内置分词器对中文很不友好(偏好英文),处理方式为一个字一个词

7.2、IK分词器介绍及安装

学会如何集成ik分词器
7.2.1、IK分词器介绍


  • IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包,是一个基于Maven构建的项目,具有60万字/秒的高速处理能力,并且支持用户词典扩展定义。
  • 下载地址:https://github.com/medcl/elasticsearch-analysis-ik/releases
  • IKAnalyzer又称庖丁解牛分词器
  • 分词器的核心

    • 1)词库
    • 2)分词算法

      • ik_smart:最小分词法

        • 我是程序员  ->  我、是、程序员

      • ik_max_word:最细分词法

        • 我是程序员 -> 我、是、程序员、程序、员



7.2.2、IK分词器安装


  • 1)下载好ik分词器后,进入创建ES容器的时候挂载的plugins目录



  • 2)将ik分词器添加到plugins里面即可



  • 3)重启es容器

    • docker restart elasticsearch
    • PS:如果发现重启失败,es启动后又意外关闭,可以查看日志,一般是下载的ik分词器版本跟es不一致导致的;可以参考博客修改(或者进入到ik分词器文件夹中修改plugin-descriptor.properties文件中的es版本号)


  • 4)验证ik分词器是否安装成功

      1. GET _analyze
      2. {
      3.   "text": "我是程序员",
      4.   "analyzer": "ik_max_word"
      5. }
      复制代码


  • 一般情况下,ik_smart算法足够使用了,ik_max_word以最细粒度分词,会分太多次,数据量过大
7.3、使用IK分词器


7.3.1、没有设置ik分词器之前


  • 目前person索引库的name字段位text类型,我们使用term查询(不分词查询),发现并没有结果

      1. GET person/_search
      2. {
      3.   "query": {
      4.     "term": {
      5.       "name": {
      6.         "value": "翠花"
      7.       }
      8.     }
      9.   }
      10. }
      复制代码

    • 因为默认情况下,text类型使用standard分词器进行分词


7.3.2、重建索引并设置ik分词器


  • 1)这时需要删除person索引库,然后重新设置name的类型为text,且analyzer为ik_max_word

      1. # 删除person索引库
      2. DELETE person
      3. PUT person
      4. {
      5.   "mappings": {
      6.     "properties": {
      7.       "name":{
      8.         "type": "text",
      9.         "analyzer": "ik_max_word"
      10.       },
      11.       "age":{
      12.         "type": "integer"
      13.       }
      14.     }
      15.   }
      16.   
      17. }
      复制代码


  • 2)插入数据

      1. POST person/_doc/1
      2. {
      3.   "name": "翠花",
      4.   "age": 20,
      5.   "sex": "女"
      6. }
      复制代码


  • 3)再次查询

      1. GET person/_search
      2. {
      3.   "query": {
      4.     "term": {
      5.       "name": {
      6.         "value": "翠花"
      7.       }
      8.     }
      9.   }
      10. }
      复制代码

    • 这时候不分词查询就有结果了

7.3.3、扩展词词典


  • 随着互联网的发展,"造词运动"也越发的频繁。出现了很多新的词语,在原有的词汇列表中并不存在。比如:"奥力给",或者我们自定义的词等等
  • 所以我们的词汇也需要不断的更新,IK分词器提供了扩展词汇的功能
  • 使用步骤如下所示
1)打开IK分词器config目录


  • 文件如下所示


    • PS:如果之前没有做目录挂载的话,可以参考如下命令

      • docker cp elasticsearch:/usr/share/elasticsearch/plugins/analysis-ik/config/IKAnalyzer.cfg.xml /root


2)修改IKAnalyzer.cfg.xml配置文件


  • 在IKAnalyzer.cfg.xml配置文件中添加如下内容

      1. <?xml version="1.0" encoding="UTF-8"?>
      2. <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
      3. <properties>
      4.         <comment>IK Analyzer 扩展配置</comment>
      5.         
      6.         <entry key="ext_dict">ext.dic</entry>
      7. </properties>
      复制代码


3)新建ext.dic文件


  • 新建一个ext.dic文件,可以参考config目录下复制一个配置文件进行修改,添加如下内容

      1. 奥里给
      2. 啊噢额
      复制代码

4)重启elasticsearch


  • docker restart elasticsearch(容器名称或id)
5)测试效果


    1. GET /_analyze
    2. {
    3.           "analyzer": "ik_max_word",
    4.           "text": "奥里给,啊噢额"
    5. }
    复制代码

  • PS:如果发现没能正常分词,可以使用cat ext.dic查看输出在终端的文字是否乱码

    • 在更改文件的时候,编码必须是UTF-8格式


  • PS:ik分词器不能使用中英文混合!
7.3.4、停用词词典


  • 在互联网项目中,网络传输的速度很快,所以很多语言是不允许在网络上传递的,如:关于宗教、政治等敏感词语,那么我们在搜索的时候,也应该忽略当前词汇
  • IK分词器也提供了强大的停用词功能,让我们在索引的时候,就直接忽略当前停用词汇表中的内容
  • 停用词词典使用步骤如下所示
1)修改IKAnalyzer.cfg.xml配置文件


    1. <?xml version="1.0" encoding="UTF-8"?>
    2. <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
    3. <properties>
    4.         <comment>IK Analyzer 扩展配置</comment>
    5.         
    6.         <entry key="ext_dict">ext.dic</entry>
    7. </properties>                 stop.dic
    复制代码
2)在stopword.dic添加停用词


  • 结业
3)重启elasticsearch


  • docker restart elasticsearch(容器名称或id)
  • 查看日志:docker logs -f elasticsearch(容器名称或id)

    • 仔细看的话,可以在日志中查看到以及成功加载stopword.dic配置文件

4)测试效果


    1. GET /_analyze
    2. {
    3.   "analyzer": "ik_max_word",
    4.   "text": "2018届计算机1班的结业率高达10%,奥里给!"
    5. }
    复制代码


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

写过一篇

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表