Selenium+ChromeDriver获取页面数据

打印 上一主题 下一主题

主题 888|帖子 888|积分 2664

一个业务需求是从一个网站上抓取客户的批评信息,批评数据已经渲染好在html上由接口返回的,只能从HTML上一个个扣数据。一开始是使用的HtmlUnit来处理,但期间一直抛出拒绝访问提示
但是从欣赏器可以直接访问,我就换别的网站进行访问,别的网站能够正常抓取数据,期间也试过设置请求头,直到在调试时偶尔抛出不一样的错误at script.M(https://challenges.cloudflare.com/turnstile/v0/g/d2a97f6b6ec9/api.js?onload=KHGO2&render=explicit:1)没截到图,搜了才发现该网站使用了cloudflare的人机检查,猜想HtmlUnit可能不是真正的请求,而是模拟的请求所以被cloudflare拦了下来。所以换了Selenium来处理
Selenium不能单独使用,需要和不同欣赏器的Driver来配合使用,我使用的是ChromeDriver
1.下载Chrome和对应版本的ChromeDriver
Chrome版本和ChromeDriver版本要对手不让回抛出错误
我的chrome是126的版本

chromeDriver就也需要下载126版本 114及114之前的版本可以从这下载
http://chromedriver.storage.googleapis.com/index.html
最新版本需要到这下载
https://googlechromelabs.github.io/chrome-for-testing/
2.添加selenium依赖

3.访问页面
相关代码

还是抛出403 禁止访问
将selenium依赖升级到4.10 访问成功



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

莱莱

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表