1.1 爬虫的一些知识(大模子提供语料)

[复制链接]
发表于 2025-12-5 12:34:20 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
1.1 爬虫的一些知识(大模子提供语料)
网页资源:
资源构造方式:列表分页,搜索引擎,保举
发送哀求的文档范例:html ,js
相应哀求的文档范例:html,js,json
哀求方式:同步和异步
页面情势:单页面,非单页面;
抓取流程:requests直接哀求
# 抓取入口(穷举大概探索方式)
# 遍历
# 分析&洗濯
# 入库
# 遍历竣事
必要关注的点:
内容反爬:抓取内容投毒、肴杂等反抓取;
哀求反爬:返回403等,大概跳转大概返回到一个人工校验页面;
资源覆盖率:穷举全部要抓取的资源;
增量抓取:怎样包管更新能跟上;
抓取速率要友好;
关于反爬战略:
加上header;
不使用requests;
加上IP署理池;
关于模仿抓取:
重量级:selenium
轻量级:其他;
分析:
bs4和xpath:一个是善于筛选器,一个善于路径定位;
内容完备性:网页内容部分是动态渲染的,但是从html页面内部的script中可以找到内容的情况
洗濯:
内容部分乱码、(硬)断行。
后续继承增补。。。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

登录后关闭弹窗

登录参与点评抽奖  加入IT实名职场社区
去登录
快速回复 返回顶部 返回列表