ToB企服应用市场:ToB评测及商务社交产业平台

标题: 搜刮引擎-03-搜刮引擎原理 [打印本页]

作者: 怀念夏天 时间: 2024-5-16 08:52
标题: 搜刮引擎-03-搜刮引擎原理
拓展阅读

搜刮引擎-01-概览
搜刮引擎-02-分词与全文索引
搜刮引擎-03-搜刮引擎原理
Crawl htmlunit 模拟浏览器动态 js 爬虫入门利用简介
Crawl jsoup 爬虫利用 jsoup 无法抓取动态 js 生成的内容
Crawl WebMagic 爬虫入门利用简介 webmagic
全网搜刮引擎架构与流程如何？

全网搜刮引擎的宏观架构如上图，核心子系统重要分为三部门（粉色部门）：
（1）spider 爬虫系统；
（2）search+index: 创建索引与查询索引系统，这个系统又重要分为两部门：
一部门用于生成索引数据 build_index
一部门用于查询索引数据 search_index
（3）rank 打分排序系统；
核心数据重要分为两部门（紫色部门）：
（1）web 网页库；
（2）index 索引数据；
全网搜刮引擎的业务特点决定了，这是一个“写入”和“检索”分离的系统
如何写入

系统组成：由spider与search+index;两个系统完成。
输入：站长们生成的互联网网页。
输出：正排倒排索引数据。
流程：如架构图中的1，2，3，4：
（1）spider把互联网网页抓过来；
（2）spider把互联网网页存储到网页库中（这个对存储的要求很高，要存储险些整个“万维网”的镜像）；
（3）build_index从网页库中读取数据，完成分词；
（4）build_index生成倒排索引；
如何创建索引

系统组成：由search+index;与rank两个系统完成。
输入：用户的搜刮词。
输出：排好序的第一页检索结果。
流程：如架构图中的a，b，c，d：
（a）search_index获得用户的搜刮词，完成分词；
（b）search_index查询倒排索引，获得“字符匹配”网页，这是初筛的结果；
（c）rank对初筛的结果进行打分排序；
（d）rank对排序后的第一页结果返回；

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/)