论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com
»
论坛
›
数据库
›
Oracle
›
【从零开始学爬虫】采集猫眼电影热门资讯数据 ...
【从零开始学爬虫】采集猫眼电影热门资讯数据
雁过留声
金牌会员
|
2022-11-25 12:57:29
|
显示全部楼层
|
阅读模式
楼主
主题
967
|
帖子
967
|
积分
2901
l 采集网站
【场景描述】采集猫眼电影热门资讯数据。
【源网站介绍】猫眼电影为用户提供热点影视资讯,新闻资讯,让用户能够提前了解当下即将上映的电影信息。
【使用工具】前嗅ForeSpider数据采集系统,免费下载:
ForeSpider免费版本下载地址
【入口网址】
https://www.maoyan.com/news?showTab=2&offset=0
【采集内容】
采集猫眼电影上的热门新闻资讯数据,采集字段:标题、资讯内容。
【采集效果】如下图所示:
l 思路分析
配置思路概览:
l 配置步骤
1.新建采集任务
选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。
2.获取翻页链接
采用链接过滤的方法来抽取翻页链接,具体如下所示:
①在浏览器上先观察翻页链接规律,找到规律,很明显翻页链接中都包含:https://www.maoyan.com/news?showTab=2&offset=
②设置地址过滤,过滤包含“https://www.maoyan.com/news?showTab=2&offset=”的链接,这样就把翻页链接过滤出来了。
③关联模板,将翻页链接抽取,关联模板01。
3.抽取列表链接
①新建一个链接抽取,改名为【列表链接】,将翻页链接抽取改名为【翻页链接】。
②使用链接过滤的方法来获取列表链接,先采集预览,打开列表链接预览结果,找到资讯链接并观察规律,发现其中都包括:“https://www.maoyan.com/films/news/+一串数字”
③设置地址过滤,过滤包含“https://www.maoyan.com/films/news/”的链接,这样就把翻页链接过滤出来了。其中\d表示数字串。
4.抽取数据
①新建一个抽取模板,在其下新建一个数据抽取,具体操作如下所示:
②数据建表,按照下图所示建数据表。(注意字段属性等应严格按照下图进行设置)
③将新建好的数据表,关联到模板中去,如下图所示:
④填写示例数据,采集预览,复制任意一条影评链接。
⑤将链接粘贴到本模板示例地址中,并双击内置浏览器空白部分,加载本链接。
⑥关联模板
⑦数据取值
使用定位取值的方法,title字段如下所示:
Text字段如下所示:
⑧采集预览
采集预览如下图所示,说明配置成功,可以开始采集。如果有哪个字段或者数据没有出来,再次检查之前配置,正确配置模板。
l 采集步骤
模板配置完成,采集预览没有问题后,可以进行数据采集。
①建立数据表单:
选择【数据建表】,点击【表单列表】中该模板的表单,在【关联数据表】中选择【创建】,表名称自定义,这里命名为【maoyan】(注意命名不能用数字和特殊符号),点击【确定】。创建完成,勾选数据表,并点击右上角保存按钮。
②开始采集
选择【数据采集】,勾选任务名称,点击【开始采集】,则正式开始采集。
③导出数据
采集结束后,可以在【数据浏览】中,选择数据表查看采集数据,并可以导出数据。
④导出的文件打开如下图所示:
本教程仅供教学使用,严禁用于商业用途!
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
雁过留声
金牌会员
这个人很懒什么都没写!
楼主热帖
XShell免费版的安装配置教程以及使用教 ...
阿里云体验有奖:如何将 PolarDB-X 与 ...
day02-代码实现01
【如何优化她】教你如何定位不合理的SQ ...
微服务大行其道的今天,Service Mesh是 ...
十年技术进阶路,让我明白了三件要事( ...
常用类-LocalDate、LocalTime、LocalDa ...
无需支付688苹果开发者账号,xcode13打 ...
鸿蒙3.0来了,这次,我真的想批评鸿蒙 ...
Elasticsearch 入门实战(5)--Java API ...
标签云
AI
运维
CIO
存储
服务器
浏览过的版块
程序人生
云原生
Mysql
运维.售后
鸿蒙
分布式数据库
IOS
快速回复
返回顶部
返回列表