1.1 爬虫的一些知识（大模子提供语料）

发表于 2025-12-5 12:34:20

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

×

1.1 爬虫的一些知识（大模子提供语料）
网页资源：
资源构造方式：列表分页,搜索引擎，保举
发送哀求的文档范例：html ,js
相应哀求的文档范例：html,js,json
哀求方式：同步和异步
页面情势：单页面，非单页面；
抓取流程：requests直接哀求
# 抓取入口(穷举大概探索方式)
# 遍历
# 分析&洗濯
# 入库
# 遍历竣事
必要关注的点：
内容反爬：抓取内容投毒、肴杂等反抓取；
哀求反爬：返回403等，大概跳转大概返回到一个人工校验页面；
资源覆盖率：穷举全部要抓取的资源；
增量抓取：怎样包管更新能跟上；
抓取速率要友好；
关于反爬战略：
加上header；
不使用requests；
加上IP署理池；
关于模仿抓取：
重量级:selenium
轻量级：其他；
分析：
bs4和xpath：一个是善于筛选器，一个善于路径定位；
内容完备性：网页内容部分是动态渲染的，但是从html页面内部的script中可以找到内容的情况
洗濯：
内容部分乱码、（硬）断行。
后续继承增补。。。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

1.1 爬虫的一些知识（大模子提供语料）

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

风雨同行