爬虫案例2-爬取视频的三种方式之一:requests篇(1)

打印 上一主题 下一主题

主题 875|帖子 875|积分 2625

@
目录

前言

本文写了一个爬取视频的案例,使用requests库爬取了好看视频的视频,并举行保存到本地。后续也会更新selenium篇和DrissionPage篇。当然,爬取图片肯定不止这三种方法,还有基于python的scrapy框架,基于node.js的express框架以及基于Java的webmagic框架等等。
爬虫步骤

确定网址,发送请求

我们打开我们需要爬取的网站后,按f12举行检查,由于页面采用的懒加载,所以我们需要往下滑加载新的视频,这时间就会出现新的数据包,这个数据包大概率就是这些新视频加载出来的来源,我们也可以在下图中的①中搜刮视频数据包中可能出现的内容,例如视频的后缀,如MP4,m4s,ts等,然后再从中筛选正确的数据包,这个可能就需要有一定的经验。

当我们往下滑革新的时间,再②中就会加载出新的数据包,点击数据包后,就会出现右边的窗口,在③标头中会看到我们要请求的url地址,以及cookie和一些加密后参数。
代码如下
  1. import requests # 数据请求模块
  2. url='https://haokan.baidu.com/haokan/ui-web/video/feed?time=1723964149093&hk_nonce=915ae0476c308b550e98f6196331fd2a&hk_timestamp=1723964149&hk_sign=93837eec50add65f7ca64a95fb4eb8de&hk_token=aRYZdAVwdwNwCnwBcHNyAAkNAQA'  # 请求地址
  3. headers={
  4.     # UA伪装
  5. 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'
  6. }
  7. html=requests.get(url,headers=headers)
复制代码
获取相应数据

在相应里我们可以看到相应的json数据,里面有封面照片地址,标题,视频地址等等,我们只需要获取其中的图片名字(title)和图片地址(previewUrlHttp)即可。
  1. respnose=html.json()
复制代码
对相应数据举行解析

json数据是字典,所以我们只需要取其中的键就可以了。
  1. data=html['data']['apiData']         # 取照片地址
  2. for li in data:
  3.     video_name=li['title']     # 照片名字
  4.     video_url=li['previewUrlHttp']   # 照片地址
复制代码
保存数据

获取到图片的url后只需要再对url举行请求,获取二进制数据,然后举行保存到本地。
  1. video=requests.get(video_url,headers=headers).content   # 对照片地址进行发送请求,获取二进制数据
  2.     with open('./videos/'+video_name+'.mp4','wb') as f:        # 保存视频
  3.         f.write(video)
复制代码
完整源码
  1. import requests  # 数据解析模块import os   # 文件管理模块if not os.path.exists("./videos"):  # 创建文件夹    os.mkdir("./videos")url='https://haokan.baidu.com/haokan/ui-web/video/feed?time=1723964149093&hk_nonce=915ae0476c308b550e98f6196331fd2a&hk_timestamp=1723964149&hk_sign=93837eec50add65f7ca64a95fb4eb8de&hk_token=aRYZdAVwdwNwCnwBcHNyAAkNAQA'  # 请求地址headers={    # UA伪装'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'}html=requests.get(url,headers=headers).json()data=html['data']['apiData']         # 取照片地址
  2. for li in data:
  3.     video_name=li['title']     # 照片名字
  4.     video_url=li['previewUrlHttp']   # 照片地址    video=requests.get(video_url,headers=headers).content   # 对照片地址进行发送请求,获取二进制数据
  5.     with open('./videos/'+video_name+'.mp4','wb') as f:        # 保存视频
  6.         f.write(video)        print(video_name+'.mp4')
复制代码
多页爬取的就要多去观察数据包,有什么规律,再这个案例中,就涉及到了时间戳js加密。
共勉

少就是多   慢就是快
博客


  • 本人是一个渗透爱好者,不时会在微信公众号(laity的渗透测试之路)更新一些实战渗透的实战案例,感爱好的同学可以关注一下,各人一起进步。

    • 之前在公众号发布了一个kali破解WiFi的文章,感爱好的同学可以去看一下,在b站(up主:laity1717)也发布了相应的教学视频


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

正序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

水军大提督

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表