ElasticSearch第4篇(亿级中文数据量 ElasticSearch与Sphinx建索引速度、查 ...

打印 上一主题 下一主题

主题 1810|帖子 1810|积分 5430

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
经过实测:1.09亿的数据量进行中文检索。ElasticSearch单机的检索性能在0.005~5.6秒之间,此检索速度可满足95%的业务场景(注意:每条ES文档平均65个汉字,数据源取自几千本小说,大部门文档在15~300个汉字之间,否则字数太多索引太大电脑存不下)。
前置文章

由于本文章的前置利用强依赖于另一篇文章,推荐阅读:
万字详解PHP+Sphinx中文亿级数据全文检索实战(实测亿级数据0.1秒搜索耗时)
运行设置

和Sphinx环境保持同等。
服务器设置:CentOS7.6 16核4G内存。固态硬盘。
ES设置:ElasticSearch 8.14.1单机,默认设置,使用IK分词器的ik_max_word设置。不设置分片和副本数量。
数据准备

和Sphinx用的数据源保持同等。
仍旧是上次用的几千本小说,整合后的单个txt文件9.57个G,用\n隔断,作为一个ES文档。
数据量为109 450 000条数据。
数据插入


  • 创建索引与映射,并修改max_result_window参数
  1. $params = [
  2.     'index' => 'performance_test',
  3.     'body'  => [
  4.         'settings' => [
  5.             'analysis' => [
  6.                 'analyzer' => [
  7.                     'ik_analyzer' => [
  8.                         'type'      => 'ik_max_word',
  9.                     ],
  10.                 ],
  11.             ],
  12.         ],
  13.         'mappings' => [
  14.             'properties' => [
  15.                 'id' => [
  16.                     'type'     => 'integer',
  17.                 ],
  18.                 'content' => [
  19.                     'type'     => 'text',
  20.                     'analyzer' => 'ik_analyzer',
  21.                 ],
  22.             ],
  23.         ],
  24.     ],
  25. ];
  26. $response = $client->indices()->create($params);
  27. dd($response->asBool());
  28. $params = [
  29.     'index' => 'performance_test',
  30.     'body'  => [
  31.         'index' => [
  32.             'max_result_window' => 2147483647 //用于控制在搜索查询中可以检索到的最大文档数,有符号int类型,最大可设置2^31 - 1,大了会有性能问题
  33.         ]
  34.     ]
  35. ];
  36. $response = $client->indices()->putSettings($params);
  37. dd($response->asBool());
复制代码

  • 插入数据
  1. //这段代码只确保可批量插入,忽略精准的数据处理高可用问题。
  2. $start = microtime(true);
  3. ini_set('memory_limit', '4096M');
  4. set_time_limit(0);
  5. include __DIR__ . './vendor/autoload.php';
  6. $client = \Elasticsearch\ClientBuilder::create()->setHosts(['192.168.0.183:9200'])
  7.     ->setBasicAuthentication('elastic', '123456')->build();
  8. /**
  9. * @function 逐行读取大文件
  10. * @param    $file_name string 文件名
  11. * @return   Generator|object
  12. */
  13. function readLargeFile($file_name) {
  14.     $file = fopen($file_name, 'rb');
  15.     if (! $file) {
  16.         return false;
  17.     }
  18.     while (! feof($file)) {
  19.         $line = fgets($file);
  20.         if ($line !== false) {
  21.             yield $line;
  22.         }
  23.     }
  24.     fclose($file);
  25. }
  26. // 使用生成器逐行读取大文件
  27. $file_resource = readLargeFile('E:/其它/一亿行汉字文本.txt');
  28. foreach ($file_resource as $loop => $line) {
  29.     $loop ++;
  30.     $from_charset = mb_detect_encoding($line, 'UTF-8, GBK, GB2312, BIG5, CP936, ASCII');
  31.     $utf8_str     = @iconv($from_charset, 'UTF-8', $line);
  32.     if(in_array($utf8_str, ["\n", "\r", "\n\r", "\r\n"])) {
  33.         continue;
  34.     }
  35.     $params['body'][] = ['index' => ['_index' => 'performance_test', '_id' => $loop]];
  36.     $params['body'][] = ['id' => $loop, 'content' => $utf8_str];
  37.     if(count($params['body']) >= 100000) {
  38.         $client->bulk($params); //忽略批量插入的错误
  39.         $params = [];
  40.     }
  41. }
  42. echo '插入耗时:' . bcsub(microtime(true), $start, 3) . '秒';
复制代码
实测ES与Sphinx新增数据建索引速度对比

应用耗时新增数据量补充Sphinx50.5分钟109 450 000/ElasticSearch119分钟109 450 000(总时间 - PHP代码执行时间,总耗时190分钟)实测ES与Sphinx查询性能对比

某些项,ElasticSearch搜索出来的结果远超MySQL和Sphinx查询的结果,这是分词汇总的缘故。
而Sphinx使用的是SPH_MATCH_PHRASE格式,所以数量不会有ES那么多,若用SPH_MATCH_ANY,大概有更多的检索结果。
类型搜索关键字Sphinx搜索耗时(秒)ES搜索耗时(秒)MySQL搜索耗时(秒)Sphinx搜索数量ES搜索数量MySQL搜索数量数字1230.0050.005305.142312138778143中文单字虹0.0130.115223.1846780260016103272英文单字母A0.0310.009339.57613642801017983单中文标点。4.4710.003125.10667088012067096182单英文标点.00.003251.171006697242可打印特别字符☺00.002355.469000中文词语(易分词)玄色衣服0.0660.283346.44210397224021062中文词语(不易分词)夏威夷0.0110.114127.054363636643664中文词语(热门)你好0.0220.091126.979102826136996137717中文词语(冷门)旖旎0.0100.077345.493445244964528英文单词good0.0100.074137.5625535881036中文短语他不禁一脸茫然1.7420.973218.2720496986600英文短语I am very happy0.0150.121355.2351483750长文本陈大人不急着答复,他先从柜台下面又抽出了一份文案,翻了好一阵之后才答复道:“瞧,果然云云,如今广州这边官职该放得都放出去了,只剩下消防营山字营的一个哨官之职。不出所料的话,督抚大人准会委你这个职务。0.1315.638129.2041804989221实测ES与Sphinx并发性能对比


  • 压测方式 :ab -c 1 -n 10~1000 127.0.0.1/temp/es/test.php
  • 中文定值关键字为华盛顿,英文定值关键字为XYZ,30位随机中文或英文字符,由代码生成(用代码生成数据源,是避免引入更好的数据源带来了性能误差)。
  • 由于ES IK分词器比Sphinx中文分词器分词粒度更细,所以并发下30位随机中文字符检索性能极具下降。
  1. 生成任意正整数个中文字符
  2. function generateRandomChinese($length) {
  3.     $result = '';
  4.     for ($i = 0; $i < $length; $i++) {
  5.         $result .= mb_convert_encoding('&#' . mt_rand(0x3e00, 0x9fa5) . ';', 'UTF-8', 'HTML-ENTITIES');
  6.     }
  7.     return $result;
  8. }
  9. 生成任意正整数个英文字符
  10. function generateRandomEnglish($length) {
  11.     $result = '';
  12.     for ($i = 0; $i < $length; $i++) {
  13.         $result .= chr(mt_rand(97, 122)); // 小写字母ASCII码范围: 97~122;大写字母:65~90
  14.     }
  15.     return $result;
  16. }
复制代码
类型搜索次数(ab -n 参数值)Sphinx耗时(秒)ES耗时(秒)固定中文多次搜索100.2560.623固定中文多次搜索1001.4351.915固定中文多次搜索100011.60418.821随机30位中文字符多次搜索100.5174.257随机30位中文字符多次搜索1002.30552.505随机30位中文字符多次搜索100017.197超时固定英文多次搜索100.3270.584固定英文多次搜索1000.7475.085固定英文多次搜索10008.51050.423随机30位英文字符多次搜索100.0770.0623随机30位英文字符多次搜索1000.7664.810随机30位英文字符多次搜索10009.42850.698ES与Sphinx各项优缺点直观对比

项目ElasticSearch(相比于Sphinx)Sphinx(相比于ElasticSearch)创建索引性能慢快查询性能相差无几相差无几并发性能慢快中文分词支持需安装IK分词器需安装Mmseg分词工具和Coreseek中文搜索引擎框架实时搜索友爱不友爱对增量数据(Insert)通过代码层可直接同步ES须要运维层面的触发而生成增量索引与数据库同等性同步问题(Update、Delete)ES支持直接更新Sphinx不支持对索引更新,需重建索引客户端语言支持Java、PHP、JavaScript、Perl、Ruby、Python、Golang、Eland、.NET、RustJava、PHP、Python、Perl、C开发语言JavaC++支持跨平台是是架构C/SC/S相助流程内置数据库,支持对自身数据进行复杂的增删改查,但须要MySQL兜底内置索引库、帮MySQL找ID事务支持不支持不支持系统内存占用大小集群部署支持支持集群协调模式自动负载均衡节点间协调        须要手动设置负载均衡和协调数据分析内建强大的聚合和分析功能不支持复杂的数据分析GUI需额外安装组件,例如Kibana无官方可视化工具生态繁荣一样平常上手难度难易安全性支持基于用户的访问控制,集成X-Pack进行高级安全设置。但内部的Log4j2组件存在高危漏洞基本的权限管理,需依赖外部工具
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

曹旭辉

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表