七、分词器
7.1、分词器介绍
了解分词器的概念
- 分词器(Analyzer)是将一段文本,按照一定逻辑,拆分成多个词语的一种工具,如下所示
- ElasticSearch 内置分词器有以下几种
- Standard Analyzer
- 默认分词器,按词/字切分,小写处理 (英文)华 为 手 机
- Simple Analyzer
- Stop Analyzer
- Whitespace Analyzer
- Keyword Analyzer
- Patter Analyzer
- 正则表达式,默认\W+(非字符分割) (中文会被去掉)
- Language
- ES提供了一个接口给我们来验证分词效果,如下所示
- # 分词效果验证
- GET _analyze
- {
- "text": "我爱写代码",
- "analyzer": "standard"
- }
复制代码- 分词效果如下所示
- Elasticsearch内置分词器对中文很不友好(偏好英文),处理方式为一个字一个词
7.2、IK分词器介绍及安装
学会如何集成ik分词器
7.2.1、IK分词器介绍
7.2.2、IK分词器安装
- 1)下载好ik分词器后,进入创建ES容器的时候挂载的plugins目录
- 2)将ik分词器添加到plugins里面即可
- 3)重启es容器
- docker restart elasticsearch
- PS:如果发现重启失败,es启动后又意外关闭,可以查看日志,一般是下载的ik分词器版本跟es不一致导致的;可以参考博客修改(或者进入到ik分词器文件夹中修改plugin-descriptor.properties文件中的es版本号)
- 4)验证ik分词器是否安装成功
- GET _analyze
- {
- "text": "我是程序员",
- "analyzer": "ik_max_word"
- }
复制代码
- 一般情况下,ik_smart算法足够使用了,ik_max_word以最细粒度分词,会分太多次,数据量过大
7.3、使用IK分词器

7.3.1、没有设置ik分词器之前
- 目前person索引库的name字段位text类型,我们使用term查询(不分词查询),发现并没有结果
- GET person/_search
- {
- "query": {
- "term": {
- "name": {
- "value": "翠花"
- }
- }
- }
- }
复制代码
- 因为默认情况下,text类型使用standard分词器进行分词

7.3.2、重建索引并设置ik分词器
- 1)这时需要删除person索引库,然后重新设置name的类型为text,且analyzer为ik_max_word
- # 删除person索引库
- DELETE person
- PUT person
- {
- "mappings": {
- "properties": {
- "name":{
- "type": "text",
- "analyzer": "ik_max_word"
- },
- "age":{
- "type": "integer"
- }
- }
- }
-
- }
复制代码
- 2)插入数据
- POST person/_doc/1
- {
- "name": "翠花",
- "age": 20,
- "sex": "女"
- }
复制代码
- 3)再次查询
- GET person/_search
- {
- "query": {
- "term": {
- "name": {
- "value": "翠花"
- }
- }
- }
- }
复制代码
- 这时候不分词查询就有结果了
7.3.3、扩展词词典
- 随着互联网的发展,"造词运动"也越发的频繁。出现了很多新的词语,在原有的词汇列表中并不存在。比如:"奥力给",或者我们自定义的词等等
- 所以我们的词汇也需要不断的更新,IK分词器提供了扩展词汇的功能
- 使用步骤如下所示
1)打开IK分词器config目录
- 文件如下所示

- PS:如果之前没有做目录挂载的话,可以参考如下命令
- docker cp elasticsearch:/usr/share/elasticsearch/plugins/analysis-ik/config/IKAnalyzer.cfg.xml /root
2)修改IKAnalyzer.cfg.xml配置文件
- 在IKAnalyzer.cfg.xml配置文件中添加如下内容
- <?xml version="1.0" encoding="UTF-8"?>
- <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
- <properties>
- <comment>IK Analyzer 扩展配置</comment>
-
- <entry key="ext_dict">ext.dic</entry>
- </properties>
复制代码

3)新建ext.dic文件
- 新建一个ext.dic文件,可以参考config目录下复制一个配置文件进行修改,添加如下内容
4)重启elasticsearch
- docker restart elasticsearch(容器名称或id)
5)测试效果
- GET /_analyze
- {
- "analyzer": "ik_max_word",
- "text": "奥里给,啊噢额"
- }
复制代码
- PS:如果发现没能正常分词,可以使用cat ext.dic查看输出在终端的文字是否乱码
- 在更改文件的时候,编码必须是UTF-8格式

- PS:ik分词器不能使用中英文混合!
7.3.4、停用词词典
- 在互联网项目中,网络传输的速度很快,所以很多语言是不允许在网络上传递的,如:关于宗教、政治等敏感词语,那么我们在搜索的时候,也应该忽略当前词汇
- IK分词器也提供了强大的停用词功能,让我们在索引的时候,就直接忽略当前停用词汇表中的内容
- 停用词词典使用步骤如下所示
1)修改IKAnalyzer.cfg.xml配置文件
- <?xml version="1.0" encoding="UTF-8"?>
- <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
- <properties>
- <comment>IK Analyzer 扩展配置</comment>
-
- <entry key="ext_dict">ext.dic</entry>
- </properties> stop.dic
复制代码 2)在stopword.dic添加停用词
3)重启elasticsearch
- docker restart elasticsearch(容器名称或id)
- 查看日志:docker logs -f elasticsearch(容器名称或id)
- 仔细看的话,可以在日志中查看到以及成功加载stopword.dic配置文件
4)测试效果
- GET /_analyze
- {
- "analyzer": "ik_max_word",
- "text": "2018届计算机1班的结业率高达10%,奥里给!"
- }
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |