IT评测·应用市场-qidao123.com技术社区

标题: 七、Scrapy框架-案例1 [打印本页]

作者: 悠扬随风 时间: 2024-9-21 12:16
标题: 七、Scrapy框架-案例1
1. 豆瓣民谣Top排名爬取

1.1 构建scrapy项目

安装Scrapy库
1. pip install scrapy
复制代码
创建Scrapy项目
通过cmd进入命令窗口，执行命令scrapy startproject xxxx (xxxx为scrapy项目名)，创建scrapy项目。
1. scrapy startproject douban_spider2024
复制代码
创建爬虫项目
执行scrapy genspider xxx（爬虫名称） xxx（网址）创建爬虫项目。
1. scrapy genspider douban www.bouban.com
复制代码

1.2 虚拟环境构建

使用Pycharm打开创建好的douban_spider2024文件夹，进入项目。
构建虚拟环境(venv)
利用requirement.txt文件安装依赖库，也可以自己一个个pip安装。
- 查看依赖库：pip freeze > requirements.txt
- 安装依赖库：pip install -r requirements.txt

1.3 主程序编写

主程序（douban.py）用于编写剖析页面的主要内容的代码。(url: https://music.douban.com/tag/民谣)

1.4 items.py设置

1.5 settings.py设置

用于控制Scrapy框架中各部件的参数，比方USER_AGENT、COOKIES、代理、中心件启停等。

1.6 middlewares.py设置

cookies设置
进入middlewares.py程序中设置，新增一个处置惩罚cookies的函数，执行cookies函数返回一个包含cookies的字典COOKIE_ITEM。

在xxDownloaderMiddleware类中process_request函数配置COOKIES_ITEM。
scrapy 利用sock代理？？

1.7 多层url剖析

1.8 pipelines.py设置

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 IT评测·应用市场-qidao123.com技术社区 (https://dis.qidao123.com/)