Python爬虫何如抓包?这三个案例手把手教会你,非常详细... ...

打印 上一主题 下一主题

主题 878|帖子 878|积分 2634

很多小伙伴总是问我,数据来源怎么找啊,怎么抓包,其实很简单,多操作几遍就记住了。
今天咱们通过三个案例来展示一下
某牙直播抓包

首先咱们进入目标网页,随便找一个视频,通过开发者工具抓包分析。
首先按F12或者点击右键选择检查,打开开发者工具,依次选择 network(网络面板) → AII (全部)
然后刷新网页,让当前网页内容重新加载出来。

以前是可以直接选择 media (媒体文件)就能看到了,现在不行了,所以说,互联网更新迭代很快,网站经常更新,技术也需要时刻准备更新,我们也是学习不能停,一停就落伍。

但是刷新后的数据太多,我们如何确定哪一条是咱们的目标呢?
以当前某牙为例, 视频改成了m3u8格式,它会把完整视频分成很多个视频片段,这些ts文件都是m3u8格式视频片段。

我们把URL复制到新窗口打开,它就直接把片段下载下来了。

我们完整的视频是2.26分,但是每一个片段只有几秒钟。

那么计算一下,平均一个五秒,2.26分差不多要17个视频,还得自己手动合并,多麻烦。
但是它有一个专门的m3u8格式的文件,保存了所有的ts文件内容。
我们直接点击左上角搜索框,直接搜索 m3u8 ,然后看到一个get开头的文件,点击它,再点击preview (预览数据)  ,视频的标题等信息都可以看到。

找到这个 definitions 展开 ,m3u8的视频就在里面了,原画、超清、流畅。
可以看到,它也有完整的url地址在这,可以直接用。

我都注释一下吧

这是直播视频的数据查找方式
 
这三个案例的爬虫代码我都准备好了,点击蓝色字体自取
 
接下来看看微博视频
某博抓包

第一步详细介绍,后面就不做太多截图一一展示了,只展示大概流程了,所以如果忘了,建议多看看第一步的,当然,两个网站之间不一样的地方,我都会一一截图展示。
确定目标网址,打开一个视频播放页面。
 

 
 
 
 
 
有点过份暴露,这是我没想到的,简单的打个码。
按F12 打开开发者工具,点击network 点击Aii ,刷新网页。

然后此时发生了一件愉快的事情
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

宝塔山

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表