爬虫 – WEB骇客

守护我的Git Forge免受AI抓取器侵扰

单个仓库可抓取的页面总量为3240亿2260万808千132页。

💬 123 条评论 | 爬虫| 2025-12-15

无需JavaScript即可阻止大型语言模型网络爬虫的方法

该方案虽非完美无缺，但实践中效果良好，至少能避免误判。我观察到它能有效拦截大量请求，同时确保行为规范的爬虫顺利通过验证。

💬 100 条评论 | 爬虫/AI爬虫| 2025-11-19

给网络爬虫下套

只需从主站链接到垃圾页面即可。由于每个垃圾页会链接五个新垃圾页，爬虫队列将以指数级增长填满垃圾内容，最终无暇爬取真实站点。

💬 204 条评论 | 爬虫/AI爬虫| 2025-11-17

反击网络爬虫

爬虫抓取程序正在无意间对公共网站实施DDoS攻击。我收到许多运营小型网络服务和博客的人发来的邮件，寻求自我保护的建议。本文并非讨论防御策略，而是探讨反击之道。

💬 83 条评论 | 爬虫/AI爬虫| 2025-11-17

你不需要 Anubis

我近期自建了Redlib，尽管未与他人共享实例，却因大量抓取爬虫试图获取优质Reddit内容而遭到Reddit限速。以下是我用12行Caddyfile解决该问题的方案

💬 95 条评论 | Anubis/爬虫| 2025-11-02

链接收藏

京ICP备12002735号