论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
软件与程序人生
›
后端开发
›
Java
›
七、Scrapy框架-案例1
七、Scrapy框架-案例1
悠扬随风
金牌会员
|
2024-9-21 12:16:20
|
显示全部楼层
|
阅读模式
楼主
主题
847
|
帖子
847
|
积分
2541
1. 豆瓣民谣Top排名爬取
1.1 构建scrapy项目
安装Scrapy库
pip install scrapy
复制代码
创建Scrapy项目
通过cmd进入命令窗口,执行命令scrapy startproject xxxx (xxxx为scrapy项目名),创建scrapy项目。
scrapy startproject douban_spider2024
复制代码
创建爬虫项目
执行scrapy genspider xxx(爬虫名称) xxx(网址)创建爬虫项目。
scrapy genspider douban www.bouban.com
复制代码
1.2 虚拟环境构建
使用Pycharm打开创建好的douban_spider2024文件夹,进入项目。
构建虚拟环境(venv)
利用requirement.txt文件安装依赖库,也可以自己一个个pip安装。
查看依赖库:pip freeze > requirements.txt
安装依赖库:pip install -r requirements.txt
1.3 主程序编写
主程序(douban.py)用于编写剖析页面的主要内容的代码。(url:
https://music.douban.com/tag/民谣
)
通过start_requests函数获取urls列表,并用Request封装(需要配合在settings.py中启用下载中心件)。
通过parse函数举行网页剖析。
1.4 items.py设置
继承scrapy.Item的自定义类SongItem,导入到主程序douban.py中用于存储爬取的字段。
1.5 settings.py设置
用于控制Scrapy框架中各部件的参数,比方USER_AGENT、COOKIES、代理、中心件启停等。
修改USER_AGENT,模拟欣赏器登录。
关闭Obey robots.txt rules,将True设置为False。
设置下载延迟
打开下载中心件(downloader_middlewares),实现拦截并修改Request的哀求内容。
1.6 middlewares.py设置
cookies设置
进入middlewares.py程序中设置,新增一个处置惩罚cookies的函数,执行cookies函数返回一个包含cookies的字典COOKIE_ITEM。
在xxDownloaderMiddleware类中process_request函数配置COOKIES_ITEM。
scrapy 利用sock代理??
1.7 多层url剖析
利用回调函数剖析多层url:在parse函数最后剖析获取新的url,并提交新的Request,并传递item到回调函数parse_detail中剖析。
在items.py中添加新的item信息。
1.8 pipelines.py设置
通过pipelines.py构建Excel存储管道,用于将爬取的数据存储到excel中。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
悠扬随风
金牌会员
这个人很懒什么都没写!
楼主热帖
(8) PyQt 设计并实现【工厂扫码装箱系 ...
王心凌再次爆火,为了防止收费,我连夜 ...
Java Long类parseLong()方法具有什么功 ...
【Web前端】HTML详解(上篇)
命题逻辑等值演算
Uniapp进行APP打包——iOS 系统 ...
互联网官方协议标准(rfc5000) ...
Oracle ORA-10917: TABLESPACE GROUP c ...
IDEA: 如何导入项目模块 以及 将 Java ...
RadonDB MySQL Kubernetes 2.2.0 发布 ...
标签云
存储
挺好的
服务器
快速回复
返回顶部
返回列表