恒久以来活泼在互联网上的爬虫都非常多,这些爬虫通常没有自己的独立名称,都是伪装成各种模拟用户的 UserAgent 进行抓爬。
如今更多爬虫是为了抓取数据用于练习 AI 模型,至少规模较大的 AI 公司会公布自己的爬虫名称,网站管理员可以屏蔽这些爬虫避免数据被抓取。 为什么要屏蔽 AI 爬虫:
这些爬虫的主要目的就是抓取你的网站内容拿去练习人工智能模型,这几乎不会给你的网站带来任何流量或其他正面反馈,因此直接屏蔽并没有什么大不了的。
固然正如 OpenAI 所说,允许 AI 爬虫抓取数据用于练习人工智能模型能够早日实现 AGI,为了这个宏大的抱负你是否愿意被抓取呢?反正大多数大型出版商 (例如消息网站) 都是不允许抓取的。 Ai Robots 开源项目:
该项目收集了众多已知的 AI 公司爬虫和少数不友爱的爬虫,各位站长可以放心屏蔽,屏蔽后不影响网站的正常运行和继续获取来自主要搜刮引擎的流量。