论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com
»
论坛
›
软件与程序人生
›
程序人生
›
我们的网站被狗爬了!
我们的网站被狗爬了!
万万哇
金牌会员
|
2024-7-31 09:58:09
|
显示全部楼层
|
阅读模式
楼主
主题
985
|
帖子
985
|
积分
2955
各人好,我是程序员鱼皮。
世风日下,人心不古。我们的程序员面试刷题网站
《面试鸭》
才刚刚上线了一个多月,就由于过于火爆,被不少偕行和小人发起网络攻击。
而且因为我们已经有 4500 多道人工整理的企业高频面试题、100 多个各方向的面试题库、大厂面试官原创的优质题解,所以也招来了不少爬虫。
网站有爬虫是很正常的一件事,阐明 “攻击者” 对我们网站内容的承认,而且自己学习用的话偷偷爬一爬咱也能理解。前提是别影响咱体系的正常运行、别被我们的监控体系发现。
我们确实发现了部分离谱的用户,不到一个小时就把我们几千道题看完了?你特么量子波动速读啊?!
上面这些实在都还好,体系自动就给封号了。但最近我们接到正义的用户反馈,最近有几只程序员博主公开
直播教别人
怎么爬我们的面试鸭网站,这属实是有点太过了吧?
有点儿法律常识的程序员应该都知道,爬虫是有法律风险的行为,可能会涉及到侵犯版权、违反网站的使用条款、侵犯隐私。而且如果请求频率过高,对体系造成了压力,还可能涉及到计算机体系破坏、违反计算机滥用法的法律风险!
所以才有了下面这个表情包:
在未经原站长授权的情况下,教别人去爬取别人的网站,这性质就更不一样了,而且还是直播去教,恐怕别人不知道你是谁么?
可邢,太可邢了!
而且最让我生气的是,有些博主教爬虫都不教明白,教爬虫的第一课一定要先让各人相识
爬虫的法律合规性和法律风险
。应该告诉各人相关法律法规、服从网站的使用协媾和版权问题、服从网站的 robots.txt 文件、确保爬取行为不侵犯他人的知识产权等等,而不是在诱导各人去爬取他人的网站。
这里鱼皮给各人列举下爬虫前的留意事项:
1)服从网站的使用条款:仔细阅读网站的使用条款和服务协议,确定是否允许抓取和数据使用。有些网站可能明白禁止抓取或设定了抓取的条件,违反这些条款可能会导致法律问题。
2)服从 robots.txt 文件:这个文件表示了网站对爬虫抓取的规则,某些页面如果明白标注了禁止抓取,建议不要动手。
比如我们面试鸭的 robots.txt 文件,第一行就是先禁用所有的爬虫,然后再给搜索引擎开放一些抓取。
3)不要抓取付费内容:一般付费内容都是申请了版权 / 著作权的,未经授权的抓取和流传可能涉及侵犯版权、会导致实际的赔偿。而且一般付费内容都是仅付费用户才能查看的,付费用户每每更好追溯到源头,千万别侥幸地以为别人查不到你!
4)控制好爬虫的频率:前面也提到了,如果你的爬虫请求频率过高,影响了网站的正常运行,那么性质就变成 “网络攻击” 了,结果每每更严肃。而且一般情况下,网站都有反爬虫的防护措施,请求频率过高要么给你限流、要么直接封 IP、封账号,千万别以为是开顽笑。
总之,技术本身是无罪的,但用欠好是真的会进局子的!各人直接在
面试鸭网站
或小程序上就能搜题、看题了,也没须要再专门用爬虫把题目搞下来了~
当然,如果各人要学爬虫的话,也许之后鱼皮可以出个项目。。。哈哈,有空再搞!
## 更多
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
万万哇
金牌会员
这个人很懒什么都没写!
楼主热帖
markdown day 01
Linux系统调用四、lseek()函数详解 ...
Nacos注册中心-----从0开始搭建和使用 ...
ClickHouse(05)ClickHouse数据类型详解 ...
基于CSDN云和docker全家桶的微服务项目 ...
【云原生】Docker 进阶 -- 数据卷使用 ...
应急救灾物资行业标准与规范 ...
100天精通Python(进阶篇)——第39天 ...
读Java性能权威指南(第2版)笔记02_ J ...
谈谈技术能力
标签云
AI
运维
CIO
存储
服务器
快速回复
返回顶部
返回列表