七、Scrapy框架-案例1

打印 上一主题 下一主题

主题 847|帖子 847|积分 2541

1. 豆瓣民谣Top排名爬取

1.1 构建scrapy项目


  • 安装Scrapy库
    1. pip install scrapy
    复制代码
  • 创建Scrapy项目
    通过cmd进入命令窗口,执行命令scrapy startproject  xxxx (xxxx为scrapy项目名),创建scrapy项目。
    1. scrapy startproject douban_spider2024
    复制代码

  • 创建爬虫项目
    执行scrapy genspider xxx(爬虫名称)  xxx(网址)创建爬虫项目。
    1. scrapy genspider douban www.bouban.com
    复制代码


1.2 虚拟环境构建


  • 使用Pycharm打开创建好的douban_spider2024文件夹,进入项目。

  • 构建虚拟环境(venv)

  • 利用requirement.txt文件安装依赖库,也可以自己一个个pip安装。

    • 查看依赖库:pip freeze > requirements.txt
    • 安装依赖库:pip install -r requirements.txt


1.3 主程序编写

主程序(douban.py)用于编写剖析页面的主要内容的代码。(url: https://music.douban.com/tag/民谣)

  • 通过start_requests函数获取urls列表,并用Request封装(需要配合在settings.py中启用下载中心件)。

  • 通过parse函数举行网页剖析。

1.4  items.py设置


  • 继承scrapy.Item的自定义类SongItem,导入到主程序douban.py中用于存储爬取的字段。

1.5 settings.py设置

用于控制Scrapy框架中各部件的参数,比方USER_AGENT、COOKIES、代理、中心件启停等。

  • 修改USER_AGENT,模拟欣赏器登录。

  • 关闭Obey robots.txt rules,将True设置为False。

  • 设置下载延迟

  • 打开下载中心件(downloader_middlewares),实现拦截并修改Request的哀求内容。

1.6 middlewares.py设置


  • cookies设置
    进入middlewares.py程序中设置,新增一个处置惩罚cookies的函数,执行cookies函数返回一个包含cookies的字典COOKIE_ITEM。

    在xxDownloaderMiddleware类中process_request函数配置COOKIES_ITEM。


  • scrapy 利用sock代理??
1.7 多层url剖析


  • 利用回调函数剖析多层url:在parse函数最后剖析获取新的url,并提交新的Request,并传递item到回调函数parse_detail中剖析。

  • 在items.py中添加新的item信息。

1.8 pipelines.py设置


  • 通过pipelines.py构建Excel存储管道,用于将爬取的数据存储到excel中。




免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

正序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

悠扬随风

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表