马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
×
1.1 爬虫的一些知识(大模子提供语料)
网页资源:
资源构造方式:列表分页,搜索引擎,保举
发送哀求的文档范例:html ,js
相应哀求的文档范例:html,js,json
哀求方式:同步和异步
页面情势:单页面,非单页面;
抓取流程:requests直接哀求
# 抓取入口(穷举大概探索方式)
# 遍历
# 分析&洗濯
# 入库
# 遍历竣事
必要关注的点:
内容反爬:抓取内容投毒、肴杂等反抓取;
哀求反爬:返回403等,大概跳转大概返回到一个人工校验页面;
资源覆盖率:穷举全部要抓取的资源;
增量抓取:怎样包管更新能跟上;
抓取速率要友好;
关于反爬战略:
加上header;
不使用requests;
加上IP署理池;
关于模仿抓取:
重量级:selenium
轻量级:其他;
分析:
bs4和xpath:一个是善于筛选器,一个善于路径定位;
内容完备性:网页内容部分是动态渲染的,但是从html页面内部的script中可以找到内容的情况
洗濯:
内容部分乱码、(硬)断行。
后续继承增补。。。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |