守护我的Git Forge免受AI抓取器侵扰

单个仓库可抓取的页面总量为3240亿2260万808千132页。

无需JavaScript即可阻止大型语言模型网络爬虫的方法

该方案虽非完美无缺,但实践中效果良好,至少能避免误判。我观察到它能有效拦截大量请求,同时确保行为规范的爬虫顺利通过验证。

给网络爬虫下套

只需从主站链接到垃圾页面即可。由于每个垃圾页会链接五个新垃圾页,爬虫队列将以指数级增长填满垃圾内容,最终无暇爬取真实站点。

反击网络爬虫

爬虫抓取程序正在无意间对公共网站实施DDoS攻击。我收到许多运营小型网络服务和博客的人发来的邮件,寻求自我保护的建议。本文并非讨论防御策略,而是探讨反击之道。

你不需要 Anubis

我近期自建了Redlib,尽管未与他人共享实例,却因大量抓取爬虫试图获取优质Reddit内容而遭到Reddit限速。以下是我用12行Caddyfile解决该问题的方案


京ICP备12002735号