该方案虽非完美无缺,但实践中效果良好,至少能避免误判。我观察到它能有效拦截大量请求,同时确保行为规范的爬虫顺利通过验证。
只需从主站链接到垃圾页面即可。由于每个垃圾页会链接五个新垃圾页,爬虫队列将以指数级增长填满垃圾内容,最终无暇爬取真实站点。
爬虫抓取程序正在无意间对公共网站实施DDoS攻击。我收到许多运营小型网络服务和博客的人发来的邮件,寻求自我保护的建议。本文并非讨论防御策略,而是探讨反击之道。
当以 Meta(占人工智能搜索机器人流量的 52%)、谷歌(23%)和 OpenAI(20%)为首的人工智能搜索机器人在一次激增中以高达 30 太比特的速度攻击网站时,它们甚至会损害最大公司的网站性能。
“Anubis” 是一款利用工作量证明(Proof-of-Work, PoW)机制来阻止 AI 爬虫抓取网站内容的开源软件。它由开发者 Xe Iaso 创建,旨在应对当前大语言模型(LLM)训练数据抓取带来的挑战。