Cloudflare 推出对人工智能数据抓取工具的默认阻断功能

 

云计算公司Cloudflare于周二宣布,已推出一项基于权限的新设置,允许客户自动阻止人工智能公司收集其数字数据,此举对出版商及人工智能技术竞赛产生深远影响。

Cloudflare表示,通过该新设置,网站可默认阻止在线爬虫抓取其数据,需网站所有者主动授权爬虫才能收集内容。过去,未被Cloudflare标记为黑客或恶意行为者的爬虫仍可访问网站并获取信息。

“我们正在改变整个Cloudflare互联网的规则,”该公司首席执行官马修·普林斯表示。Cloudflare提供保护网站免受网络攻击并帮助其更高效加载内容的工具。“如果你是机器人,现在你必须走收费公路才能获取这些出版商的内容。”

普林斯表示,Cloudflare此举旨在保护互联网上的原创内容。他指出,如果人工智能公司未经许可或支付费用就随意使用各类网站的数据,人们将失去创作新数字内容的动力。该公司称其服务器网络处理了约20%的互联网流量,近期已观察到网络上人工智能数据爬虫的数量急剧增加。

人工智能系统的数据已成为日益争议的问题。OpenAI、Anthropic、谷歌等开发人工智能系统的公司已从互联网各处收集了海量信息来训练其人工智能模型。高质量数据尤为珍贵,因为它有助于人工智能模型更精准地生成答案、视频和图像。

但网站出版商、作者、新闻机构及其他内容创作者指责人工智能公司未经授权且未支付费用便使用其内容。上月,Reddit起诉Anthropic,称这家初创公司未经授权使用其超过1亿日活跃用户的数据来训练其人工智能系统。2023年,《纽约时报》起诉 OpenAI及其合作伙伴微软,指控其侵犯与人工智能系统相关的新闻内容版权。OpenAI和微软否认了这些指控。

一些出版商已与人工智能公司达成许可协议,以获得其内容的补偿。今年5月,《泰晤士报》同意授权其编辑内容给亚马逊,用于该科技巨头的人工智能平台。阿克塞尔·斯普林格(Axel Springer)、康德纳斯特(Condé Nast)和新闻集团(News Corp)也与人工智能公司达成了协议,以获得其内容使用的收入。

《时代》杂志首席运营官马克·霍华德(Mark Howard)表示,他欢迎Cloudflare的这一举措。他指出,人工智能公司进行的数据抓取威胁到所有内容创作者,并补充说,像《时代》这样的新闻出版商应获得其发布内容的公平补偿。

然而,Cloudflare所推动的“只是一个非常、非常漫长过程中的第一步”,他说,“但你必须从某个地方开始,必须在某个时间开始。”

OpenAI、Anthropic和谷歌未回应置评请求。

普林斯表示,Cloudflare大约18个月前开始考虑如何帮助在线出版商。他说,过去几十年里,吸引人们访问他们的网站是出版商和内容创作者赚钱的方式。但人工智能改变了这种动态,人们越来越多地转向人工智能工具,如ChatGPT,而不是搜索引擎或原始文章。

普林斯先生表示,他“对内容创作的激励机制已不复存在深感担忧”。去年7月,Cloudflare推出了一项可选设置,允许网站出版商在需要时阻止人工智能爬虫。这一设置于周二成为默认选项。

普林斯先生表示,不为内容付费的人工智能公司最终将失去对内容的访问权限。

“我百分之百确信我们可以阻止他们访问内容,”他说,“如果他们无法访问内容,那么他们的产品将变得更差。”

共有 277 条评论

  1. 很少有人意识到,我们迄今为止在网上所做的几乎所有事情,实际上都是在为OpenAI、Anthropic等公司提供免费培训,让他们变得更加富有,而那些创造价值的人类却被排除在外。

    此时此刻,这可能为时已晚,且这一特定解决方案似乎缺乏创新性。然而,其方向性上100%正确,让我们期待在抵御AI寄生行为方面能有更多创新。

    • 正是Cloudflare这类寄生虫将使互联网失去自由。这种情况已经发生,我不是被屏蔽就是回到1998年的加载速度,只因“检查你的浏览器”。它们正在摧毁互联网,并将使只有在经过批准的浏览器上进行经过批准的活动(即允许广告公司 monetize 他们的在线活动)的人才能获得真实访问权限。

      Cloudflare 并非在解决问题,他们只是作为中间商插入其中以获取利润,并使一切变得更糟。

      • Cloudflare 为何被称为寄生虫?我可以免费使用 Cloudflare 并获得其 AI 保护。我曾将数十个域名与 Cloudflare 绑定,但从未支付过一分钱。

        • 严肃问题:你将 Cloudflare 部署在所有域名和访客之间,却未考虑这会如何影响网站的可访问性?如果真是这样,这很值得关注,因为社区中许多人因使用 Linux 和/或非主流浏览器而受到 Cloudflare 的负面影响。

          你可能需要阅读这里关于 Cloudflare 的相关帖子。

          • 我什么时候说过所有?

            大多数时候我不用他们的网络服务,通常只是用DNS记录来管理邮件,因为他们的界面比Namecheap更友好,还能提供基本统计数据。

            据我所知,他们不会在验证码后屏蔽MX记录

            • 所以你没有使用寄生服务,这就是你认为它不是寄生服务的理由?

              • 兄弟,别曲解我的意思。我从未说过他们不好。

                这里有些友善的人尝试了教育性方法,效果好得多。我了解了Bunny。我总是忘记自己在deSec还有几个,但那有数量限制。

                我不明白这种敌意

                • > 我不明白这种敌意

                  不幸的是,我认为他们并没有以诚恳的态度参与对话。人们对任何事情都可能持有极端观点……甚至互联网/科技。他们沉迷于100%开源、或“开放互联网”、或100%去中心化等理想。

                  当这种情况发生时,他们可能会认为“其他人”因为不分享他们的乌托邦愿景而疯狂。一旦达到这个地步,他们就难以与同行或普通人有效沟通。他们分享自己的强烈观点却不分享重要背景(他们是如何形成这些观点的),他们认为话题是非黑即白的(因为他们对这个话题有如此强烈的看法),或者他们对不分享这种愿景的人变得敌对。

                  你就是他们的最新受害者,哈哈。忽略他们,继续前进。

        • 寄生虫会吸取宿主的养分,对宿主造成伤害。也许这不是一个很好的比喻,但我身在中国,付钱购买VPN绕过审查后,却发现自己经常被CDN屏蔽,因为它们认为我不是人类。我坦白说,有时我觉得这些中间商比政府更让我感到压迫。例如,也许我无法登录游戏,因为登录API阻止了我,而游戏公司只是告诉我运行杀毒软件并重新尝试,因为他们并没有亲自开发那个缺乏意识的系统。那些真正需要VPN和隐私工具的人,正是这个系统的牺牲品。

        • > 我曾经使用过Cloudflare的数十个域名,但我从未向他们支付过一分钱。

          也许你没有,但你的用户(主要是使用“可疑”操作系统和浏览器的用户)肯定有——他们花时间解决验证码。

          • 但Cloudflare已经移除了验证码

            • 不确定你是在开玩笑,但如果你不是:恭喜你使用了一个非常“正常/安全”的操作系统/浏览器/IP地址。

              我每天都会遇到验证码,而且没有使用任何VPN,在多个不同的IP地址上(工作、家庭、移动设备)。我能想到的唯一“罪过”就是我使用的是Firefox而不是Chrome。

              • 从几天前开始,我每小时甚至更频繁地收到验证码。

                这可能因为我在Linux上使用Firefox并启用了广告拦截器。

                至于我,我已确保工作场所不使用Cloudflare。

                • 这一定与其他因素有关。Firefox和Linux一直运行良好,我记不清上次因Cloudflare验证码被限制是什么时候了。

                • 我在Linux上使用Firefox并启用广告拦截器,Cloudflare运行正常

              • 我的住宅IP地址(未共享且未启用CGNAT)最近被Cloudflare标记,原因不明。如果你在问,那你还没见过Cloudflare认为你是什么其他东西的时候。

                Cloudflare并不是好人,因为他们提供免费的CDN和DDoS保护,哈哈

                • 如果我属于那25%仍在被挑战的用户,这对我来说也算不上什么安慰。

                  这个世界已经有了太多基于启发式的欺诈检测系统,大多数人甚至不知道它们的存在,但它们却让那些不符合典型用户特征的人生活痛苦。事实上,误报率越低,这些系统对每个误报的惩罚通常就越严厉。

                  我已经厌倦了这一切。当然,可以使用机器学习(或“人工智能”)全天候对用户进行善恶分类,但一定要确保有一个不痛苦的备用方案。

                • 管理挑战只是另一种形式的验证码。

              • 我使用VPN和Firefox,会遇到一些额外的验证码,但数量不足以令人烦躁。而且你只需勾选复选框即可。

                与此同时,其他网站使用的许多“安全”产品会直接阻止使用VPN的用户。而像YouTube或Reddit这样的网站则处于中间地带,除非你登录,否则会阻止你。

                Cloudflare 是所有选项中干扰性最小的。

                • 不,干扰性最小的选项是你甚至不会察觉的,因为它确实有效(或在无法有效时提供一个不痛苦的备用流程)。

            • 你忘了 /s

              (那些不懂笑话的人,是的,新系统不需要你训练任何图像识别数据集,但它们会对能获取的任何东西进行彻底分析,就像谷歌验证码一样,如果你看起来像个机器人,就会被拒绝访问。再见)

        • 下载Brave。

          开启Tor并浏览一周。

          现在你知道“不受欢迎的人”是什么感觉了,这些“不受欢迎的人”可能来自贫困国家、不良IP地址块、过时浏览器等。

          这太糟糕了。

          • 这其实是个难以解决的问题。他们要么保存一些跟踪cookie来关联你在不同网站间的会话,要么就必须在每个网站上重新进行验证码验证。

          • 我在另一个帖子中已经提到过,我正在考虑使用Bunny,但他们似乎也不愿意接受我的付款。我已经尝试了3张信用卡。我愿意为优质服务付费,但坦白说,我对Cloudflare的竞争对手了解不多。

        • 他们把自己定位为几乎整个互联网的中间人,收集关于每个人的大量使用数据,并阻止任何不使用主流工具的人:

          https://news.ycombinator.com/item?id=42953508

          https://news.ycombinator.com/item?id=13718752

          https://news.ycombinator.com/item?id=23897705

          https://news.ycombinator.com/item?id=41864632

          https://news.ycombinator.com/item?id=42577076

          • 你可以根据这篇文章再添加一个:训练AI所需的数据和构建搜索引擎所需的数据是相同的数据。因此,他们现在正在阻碍每一个想要与谷歌竞争的新搜索引擎。

            • 他们一直都是这样做的。这篇帖子是关于肆无忌惮地将误报率“调到11”

          • 合理。

            …但另一方面,正是他们的客户想要这一切并为此付费,因为替代方案更糟糕。

            进退两难。

            • 我想知道是否有一种设计方案,可以避免由单一实体控制并进行内容把关。

            • 没错——我希望他们获取我的部分信息,还是希望我的IP地址被曝光?

              除了仍需付费的CloudFront,还有哪些免费且兼具半隐私和缓存功能的选项?

              • 正如老话所说:如果你没有为此付费,那么你就是产品。

                有很多细节,但总的来说:为使用的东西付费。服务器、工程师和研发都不是免费的,所以有人必须付费。

                • 很多服务甚至不让我付费,所以我被迫成为产品。(捐赠通常不会让我摆脱产品身份。)

                  或者我付费了,但仍然是产品。只是广告没那么明显。

                • 顺便说一下,我已经被说服去看看其他选项

              • CloudFront的前1TB基本免费。Fastly也有免费计划。

                不过为什么它应该免费?

                • 多人提过这个问题。我为其他服务付费,为什么不能再多付一个。

                  不过bunny.net不接受我的任何信用卡或借记卡

              • bunny.net有一些选项

        • 你读过他的评论吗?他解释了他对Cloudflare的看法…

      • 从服务器角度来看,Cloudflare是在解决问题,而不是给其他服务器带来麻烦。

        类比:超市里高价值商品的锁对顾客来说很烦人,但其他商店并没有被锁匠强迫使用这些锁。

      • 更正:获取巨额利润。当我看到与Reddit AI交易相关的收入时,我甚至无法想象有哪些交易能覆盖互联网的一半。从 cynical 的角度来看,这简直是天才级的操作。

      • 大语言模型(LLM)抓取器大大增加了各种小型网站的托管成本。

        如果不采取行动,这些抓取器所依赖的数据最终将不复存在。

        • 我认为正确的表述应该是,不受限制的大语言模型(LLM)抓取器大大增加了各种小型网站的托管成本。

          当有人进行“道德”抓取时,例如在请求之间设置250毫秒的延迟,并使用一个活跃的缓存来检查特定页面(如新闻文章链接),并在12或24小时后重新抓取,这种抓取方式几乎不会给网站带来压力。

          我所观察到的问题是,一些不择手段的群体让抓取工具肆意运行,不断重复抓取,因为抓取成本极低。一台小型虚拟机就能轻松实现每秒数千次抓取,更不用说拥有更多专用资源的抓取者了。

          实际上,构建一个“道德”的抓取工具需要更多时间,因为需要针对每个网站进行精细调整。不幸的是,这种行为将使更道德的抓取工具付出巨大代价,因为反抓取措施将增加我们的成本。

          • 对我来说,最大的问题显然是伪装他们的User-agent字符串。无论他们是慢速且尊重规则的爬虫,都应明确标识自身身份、提供文档链接并遵守robots.txt规则。否则,我不得不玩一场令人疲惫的猫鼠游戏,浪费我的时间和用户的时间(他们不得不忍受某种验证码或工作量证明机制)。

            我一直是自托管社区的活跃潜水者,而且我绝对不是唯一的一个。几乎所有托管面向公众的网站的人,尤其是那些对大语言模型(LLMs)来说非常诱人的网站,都面临着这些问题。处理这个问题需要花费更多的时间和金钱,而应用一个简单的User-agent块则更便宜、更简单,而且易于维护。

            sigh

        • 我使用 Cloudflare 和边缘缓存,所以这对我影响不大,但大语言模型(LLM)对我的应用程序各种静态资产的抓取量非常可观。

          我们说的是一个 JavaScript 文件,它不断重复响应“登录失败”、“重置密码”等字符串。每天有数百次抓取,通常来自同一个系统。

          • 打开 Cloudflare tarpit。当它检测到大语言模型(LLM) 抓取器时,它会开始生成无限的人工智能垃圾页面来喂养抓取器。破坏他们的数据集,并阻止他们进入你的实际网站。

      • 我使用 Firefox 浏览器,并安装了广告拦截和一些指纹识别反测量功能,我很少遇到他们的挑战。你的 IP 声誉一定很差。

        他们有一个插件[1],可以帮助你匿名绕过Cloudflare的挑战,但从那些让你的网络体验变差的人那里安装插件感觉不对。

        1: https://developers.cloudflare.com/waf/tools/privacy-pass/

        • > 你的IP声誉可能有问题。

          对于大量诚实用户而言,他们实际上无法避免这种情况。

          我住在印度。移动数据和光纤网络均通过受污染的CGNAT传输,我经常遇到Cloudflare验证挑战。我所知的两家光纤服务商都使用CGNAT,预计其他运营商也同样如此。我曾(费了很大劲!)向我的 ISP 询问获取静态 IP 地址的事(想着或许可以放弃我的小型 VPS,改为在家中托管),但他们报价 ₹500/月,这远高于 IPv4 地址租赁的市场行情,甚至比我支付的整个 VPS 费用还高,所以这绝对不会让事情变得更便宜。而且我怀疑即使这样,它在Cloudflare中的声誉也不会很好。它很可能仍然在被列入黑名单的范围内。

        • 我处于类似的情况,只是我经常遇到挑战。尤其是当我使用VPN(比我的ISP更值得信赖)时。讽刺的是,我正在使用Cloudflare进行DoH

          • 我怀疑Cloudflare会将DoH请求与随后的HTTP请求相关联,因此我不认为这是他们会使用的信号。

            • 可能不是。事实上,他们对该流量进行加密的准确性可能是一个好兆头。

              但我觉得这很讽刺

      • 没错,这让我感到非常害怕,100%。我们正在逐渐失去开放的互联网,而青蛙被慢慢煮熟的速度足够慢,以至于人们非常乐意为不断升高的温度辩护。

        如果DDoS攻击还不足以让人们在所有网站流量中安装Cloudflare作为中间人,那么人工智能爬虫的威胁或许能奏效?

        这种缓慢滑坡的可怕之处在于它总是可以被辩解的。有人总能说:“但我不想让我的网站被爬取,而这项服务是免费的,或者更好的是,我可以设置自己的收费站并收取费用!它们太棒了!”

        问题是,按照这种速度,终有一天几乎所有互联网流量都将通过同一个关卡。而一旦他们掌握了“所有人”(以及所有流量)……嗯,互联网接入是一项巨大的权力,我无法想象它能永远不受商业和政府利益的侵蚀。

        而“永远”正是关键所在,因为一旦99%的人口都乐于使用三款获批浏览器中的任意一款(仅限最新版本),且仅限于两款获批设备,几乎不可能再扭转局面。感觉我们正以越来越快的速度接受这种未来。

        • 互联网并非首个全球网络。在互联网之前,我们有全球电话网络。它同样扼杀了终端用户,但最终变得停滞不前、价格高昂且无关紧要。从超长期来看,当前的互联网也无法免于此命运。互联网标准正变得与昔日贝尔公司试图用埋在地下的铜线构建未来时那般复杂古怪,若监管/商业力量将这些标准固化,最终必将导致停滞。

          我认为即将到来的一个趋势是,IPv4地址很快会变得极其昂贵。这将导致互联网格局及其应用出现各种有趣的变化。

          我确信我们可能需要在“仅限批准设备和浏览器”的世界中度过几十年,才能迎来下一波变革。

        • 我们需要一个合理的替代方案,来替代Cloudflare的部分功能,该方案可以作为包轻松安装在Linux发行版上,且无需安装以下任何内容:

          * curl | bash

          * Docker

          * 任何与加密货币或其他骗局相关的内容

          只需为Debian和RHEL衍生发行版提供一个标准仓库。完全开源,以便所有人都能使用。(通过apt/dnf安装no-bad-actors)

          在这种替代方案出现之前,使用Cloudflare是不可避免的。

          它至少需要具备以下功能:

          * 提供基本安全防护(如检测SQL注入等)

          * 速率限制

          * User-agent屏蔽

          * IP地址和ASN屏蔽

          确保配置简单,默认设置合理,并提供订阅屏蔽列表的功能。

          • 我创建了这个:https://anubis.techaro.lol。目前尚未添加SQL注入检测或IP列表功能,但可以将其纳入路线图。

            • 工作量证明机制让人感觉与加密货币相关,因此我一直在寻找其他工具来实现自己的需求,但我在其他网站上看到Anubis,它似乎表现不错。

              • 有一个非工作量证明的挑战:https://anubis.techaro.lol/docs/admin/configuration/challeng

                此外:Anubis不进行加密货币挖矿。工作量证明在服务器上易于验证,但在实际环境中对滥用爬虫的经济扩展性较差。

                • 感谢提供链接,我会查看。

                  我很高兴其中不涉及加密货币(这从未是我的担忧),但对与之密切相关的事物的外观感到担忧。

                  (感谢您对此的评论。我知道该项目最近人气暴涨。继续保持出色工作)

                  • 如果您有基于 JS 的挑战建议,且不会演变成“通过阅读源代码来让 Playwright 说谎”的情况,我很乐意听取您的想法 🙂

          • 我记得很久以前曾用Apache搭配mod_security处理过类似问题,看来它至今仍在使用,且现在还支持Nginx和IIS:https://modsecurity.org/

            • 感谢。这并不包含我所有需要的功能,但显然它至少已被打包到Debian中。我不明白为什么官网没有提及这一点。

          • 这意味着没有一个基于vibe编码的应用程序会在公共端点上崩溃,甚至在Nginx的速率限制生效之前。

      • 如果你使用IPv6,我认为他们必须对IPv6地址进行处理……因为有太多机器人和太多地址,要进行更精确的处理是不现实的。

        如果你使用的是IPv4,你应该检查自己是否处于NAT环境中,否则你可能获得了之前被僵尸网络使用的地址。

        • > 我认为对于IPv6地址来说,他们必须这样做……因为僵尸网络和地址的数量实在太多了

          你真的认为将所有IPv6浏览流量都视为“可疑”是合理的?

          如果有什么不同,我认为IPv4可能更难,因为NAT可以隐藏数百或数千个用户在单个IPv4地址后面,其中一些可能是恶意的。

          > 你可能获得了之前被机器人网络使用的地址。

          太好了,又一个需要担心的“信用评分”……

          • 对于白名单系统,那当然是这样?

            如果是黑名单系统,就像我之前说的,我还没听说过比禁止大量IPv6地址范围更精确的可行解决方案。

            • > 对于白名单系统,那当然是这样?

              白名单系统默认也会将所有IPv4流量视为可疑。这并不能解释为什么特别要怀疑IPv6。

              > 我还没听说过比禁止大量IPv6地址范围更精确的可行方案。

              处理/56或类似范围与处理单个IPv4地址差不多。

              • 我试图构建支持INET6的系统,并像处理单个主机一样重复/64地址段。最终这可能需要扩展到/56或/48地址段。

              • > 白名单系统默认也会将所有IPv4流量视为可疑。

                基于什么论点……?

                • 白名单的定义。你提到的论点。

                  • 不……?显然可以实现一个仅适用于IPv6的白名单系统……但这不会对IPv4做出任何判断。

                    • 让我们退一步。你说按定义白名单系统会将所有IPv6地址视为可疑(直到被加入列表,大概是这样)。这个定义是什么?

                      如果“仅适用于IPv6”是某人可以选择的决定,那么它就不是IP地址白名单系统的定义的一部分,对吧?

                    • 你在说什么?

                      之前的评论是直接回应你的评论,而不是之前任何评论。

                      当然,如果将范围扩展到IPv6白名单之外,那就不再是定义了,因为可能存在无限数量的白名单。

    • 我在线写作(评论、开源软件、博客等)是因为我有想法想分享。无论是“我做了一件事,这是如何做的”,还是“我们应该以这种特定方式改变政策”,或是“有人知道如何做X吗”,我都乐意让这些内容用于训练模型,就像我乐意让它们被人类阅读一样。

      • 感谢您抱有这种态度。我从未尝试过写博客,因为我总是觉得没有人会读。然而,有了大语言模型(LLMs),我知道他们会读。实际上,我认为这是写博客的动力,因为我们能够塑造这个新兴的知识库。我并不觉得其他人从我们免费发表的作品中获利是令人沮丧的事情,就像我自己从开源和他人免费发表的作品中获益匪浅一样。

        • 这是一个有趣的观点,感谢您的分享。我想知道,如果有人认为他们的主要受众是大语言模型(LLMs),他们应该如何调整自己的博客。

          • 我提到的某些内容(关于历史话题或社会学中的非常狭窄的话题)是不正确的。大语言模型(LLMs)从网络论坛或其他地方抓取了这些内容,现在这些虚假的“事实”已经永久地嵌入到大语言模型中,因为没有人真正谈论过这个具体话题。

            最有趣的是,当我告诉他们这不是真的时,有人引用了大语言模型生成的输出,告诉我这个“事实”是真实的。

          • SEO -> LLMEO

      • 说实话,我对这些内容大多没有意见。我唯一真正关心的问题是,人们正在利用像你我这样的免费劳动力赚取数万亿美元,这使得我们有更少的时间来创建开源软件和博客。但这并非人工智能的新问题,只是规模更大而已。

        我真正关心的是身份盗用。一个人可以从我写的话中学习,但那个人不会模仿我的写作方式。他们仍然是独特的自己。

        我担心我写得越多,我的文字就越成为我的标识。我使用一个昵称,这样我可以更开放地讨论一些问题。

        我们撰写开源软件和博客是因为信息应当免费。但这些信息随后被付费墙锁住,通过搜索引擎也越来越难以被发现。坦率地说,这不行

        • > 我真正关心的是身份盗用。他人或许能从我的文字中汲取灵感,但不会模仿我的写作风格。他们依然保持着独特的自我。
          当然,在一定程度上确实如此。仅仅因为无法精确追踪“影响力图谱”,这正是人类自拥有语言和文字以来,学习说话和写作的方式。

          > 我担心自己写得越多,文字就越成为我的标识。我使用昵称,这样就能更开放地讨论某些问题。

          在我看来,这是一个更严重的问题。但我认为,大语言模型(LLMs)既是问题,也是解决方案:“消除风格熵”现在只需一个提示即可实现。

        • > 一个人可以从我写的东西中学习,但不会模仿我的写作方式。

          哦,我真希望AI能模仿我的写作方式!我愿意为此付费。我经常想打字写邮件/文档/等等,但因为偶尔的RSI问题而放弃。如果能让AI替我打字,同时保持我的风格——那对我的健康将大有裨益。

          • > 但因为偶尔的RSI问题而放弃

            我也遇到过类似问题,但顺便说一下,语音输入技术已经非常成熟了。

            (通过语音输入完成)

            • 哦对,我用语音输入后再用GPT进行润色。效果很棒。但我的说话方式和写作风格差异很大。所以我希望先语音输入,再让它以我的写作风格重新撰写。

        • > OSS

          > 人们从你我这样的免费劳动力中赚取了数万亿的利润

          我认为“不歧视努力领域”也包括大语言模型(LLMs),尤其是我们最深切反对的情况。

          要么我们相信 OSS 的原则,要么我们就不相信。如果你不喜欢你的知识产权被用于商业目的,那么这种模式肯定不适合你。

          保留你的源代码和其他知识产权的秘密并不可耻。如果你对你的工作有强烈的补偿期望,那么也许不同的许可和分发模式才是你所追求的。

          > 这些信息随后被锁在付费墙后,通过搜索越来越难以找到

          当然——如果你放弃并删除一切。没有人强迫你将博客和GitHub仓库置于付费墙后。

          • > 我们要么相信开源软件(OSS)的原则,要么不相信。如果你不喜欢自己的知识产权被用于商业目的,那么这种模式绝对不适合你。

            我从事开源开发已超过20年

            我免费分享我的作品,但有一个条件:保留我的署名(MIT许可证)

            AI寄生虫随后移除了署名

            他们才是违反开源原则的人

            > 或许你需要的是不同的许可和分发模式。

            我现在已经完全停止生产开源软件

            我建议每位开发者都这样做,直到法律地位得到澄清(对我们有利)

            • > 我建议每位开发者都这样做,直到法律地位得到澄清(对我们有利)

              有很多人在开发开源软件,目标各不相同。就我而言,我非常乐意让大语言模型(LLMs)从我的编码中学习,就像它们从数百万其他人的编码中学习一样。我不希望它们照搬我的编码,但(由于版权过滤器+这通常不是解决问题的最佳方法)它们不会这样做。

          •   > 要么我们相信开源软件的原则,要么我们不相信。
            

            那么尊重许可证呢?

            认真地说,不要拍马屁。我们可以承认这里存在复杂性。将一切简化只会助长滥用者。

            给予应有的认可并非过分要求。其他人从我的工作中获利是可以的[0]。但据为己有则是侮辱

            [0] 如果你赚得不多,谁会在乎。但如果你是一家万亿美元的企业,你应该能负担得起回馈一点。事实是,开源软件只有在我们有足够的资金和时间来完成工作时才能运作。这要么是通过良好的工作与生活平衡和良好的薪资,要么是通过足够的捐款。我们主要依赖前者,但这种情况似乎正在消失

          • 开源软件通常有许可证。不遵守许可证的行为是不被容忍的。

            这就是AI抓取工具在做的事情。它们在未经许可的情况下,擅自使用你的代码、艺术作品和文字。

            • 关于代码训练是否构成合理使用,目前仍是一个未决的法律问题,但很可能属于合理使用。许可证的作用是规定“只要你遵守这些条件,我就允许你使用此代码”,但如果不需要许可证,那么这些条件就无关紧要了。

              目前有一起相关诉讼正在进行中,微软因GitHub Copilot被起诉,该案件自2022年起便在法院系统中缓慢推进。大部分指控已被驳回,预测市场的概率为11%:https://manifold.markets/JeffKaufman/will-the-github-copilot

              • 我看不出来这怎么能算是合理使用。只要遵守许可协议,这并不难。如果微软因此逃脱惩罚,他们将永远成为众矢之的。

                我还是把新代码放在私密的地方。

                • > 我看不出来这怎么能算是合理使用。

                  关键问题在于是否具有足够的“ transformative ”性。参见《作者协会诉谷歌案》、《凯利诉阿里巴软案》和《索尼诉环球案》。这是法官可能做出的裁决,目前我认为这是最可能的结果。

                  > 如果微软因此逃脱惩罚,他们将永远成为众矢之的。

                  我对此表示怀疑。与开发者交谈时,似乎大多数人对编程助手都相当兴奋。包括微软以外的许多公司(尤其是Anthropic)推出的产品。

    • > 迄今为止,我们在网上所做的一切,都只是为OpenAI、Anthropic等公司提供免费训练,让他们变得更富有,而那些创造价值的人类却被排除在外

      我认为恰恰相反,设定提示词的人将获得好处,AI提供商获得固定费用,而作者除了与其他人相同的AI工具外一无所获。这是自然的,因为用户将问题带给AI,当然他们在这里占据了绝大多数。

      AI在应用于特定任务之前是无用的,而这些任务由个人或公司拥有。在这样的任务中,人工智能有机会创造价值。人工智能不会自己创造机会,而是由用户创造机会。

      由于用户分布在整个社会中,因此收益也遵循相同的曲线。它们不会流向中心,而是主要留在边缘。从这个意义上说,大语言模型(LLMs)就像 Linux 一样,它们以特定的方式为每个用户提供服务,但开源代码的贡献者却无法直接获得报酬。

      • 这真是一个很有趣的思考方式,谢谢!我一直有一种“直觉”,认为在我们的数据上训练人工智能是可以接受的,但从未深入思考过原因。我认为这解释了我一直以来的感受。

    • 我认为在公共互联网数据上自由训练是完全可以接受的。

      绝对不可接受的是以如此过快的速度爬取数据,以至于让小型网站难以托管。

      这真是公地悲剧。

      • 同意。最近的问题是,即使每个单一的爬虫都以“合理”的方式操作,但参与的个人和团体数量如此之多,仍让许多网站难以承受。当然,许多人并不“合理”。

      • 这种态度将摧毁公共互联网。因为你说得对,现在确实是一片混乱,唯一能退出这种状况的方式就是将内容放在受限平台上。

    • Cloudfare真的能成功阻止所有AI数据抓取吗?我认为这一措施只会让抓取行为更加困难和昂贵,从而阻止AI抓取工具每天访问每个页面并给出版商带来成本,但并不能真正阻止这些数据最终出现在少数数据集中。

    • 包括你的评论,包括这条评论。

      HN本身经常被抓取。让我最不安的是通过语音分析进行去匿名化。这是我们已经能够做到但难以大规模实现的事情。这是专制主义者的终极工具。没有隐藏的身份,因为你的语音就是你的标识符。它没有边界。无论你的政府是好是坏,一个行为不端的政府(甚至大型企业实体)都有能力勒索其他国家的个人。

      我们正迅速走向一个反乌托邦世界。这可能导致互联网的彻底毁灭,或前所未有的自我审查程度。我们已经有了算法语言,因为平台审查[0]。但这将是一种不同的审查形式。更加侵入性,更加个人化。还有比黑暗森林更糟糕的事情

      [0] 就在昨天,YouTube 给我(一个 25-60 岁的人)一个内容警告,因为有一个视频关于一个人因为穿着一件写着“结束退伍军人自杀”的衬衫而被赶下飞机。

      [0.1] 即使我正在输入这些内容,我也被审查了!苹果允许我滑动“自杀倾向”这个词,但不允许“自杀”!天啊,伙计们!你不能通过阻止人们讨论他们的问题来缓解心理健康危机,你只会让情况更糟!

      • 如今人们说“自我删除”和“不活着”的程度已经荒谬,我现在在现实生活中也能听到这些词。

        这在字面意义上堪称奥威尔式的。

    • 将人类排除在哪个循环之外?那些在Reddit上发表评论或从事类似活动的人,原本能获得哪些工作或机会,现在却要被AI取代?

      • 过去发帖的人是从他们的职业或爱好中获得知识。我不再在像Reddit这样的大型网站上发布任何此类信息,原因多种多样,但AI抓取行为的固化是其中之一。

        我仍然会在越来越少的爱好论坛上发帖。

      • > 过去人们在Reddit上发帖或做其他事情时获得的工作或机会,现在都将被AI取代了吗?

        内容写作、产品评论(真实与虚假)、创意写作、客户支持、摄影/艺术等,这些都是我能想到的例子。

        • 现在,虚假宣传是由AI代理完成的,而不是呼叫中心里辛勤工作的员工,这让人感到遗憾。

    • 这是个讽刺。现在这样做只是阻碍竞争,让现有企业更占优势。

    • 如果不是因为现在有开放权重(甚至一些开源)的大语言模型(LLMs),这可能会成真。不是所有事情都应该为了利润而做。

    • 难道模型制造商不会通过从记忆中删除它们及其框架来进行报复,从而损害开发者对CF的采用吗?

    • 看到这条评论成为帖子中的热门评论,我感到非常高兴

    • 这种情况自早期社交媒体时代就开始了。我认为大多数用户实际上更喜欢这样。

    • Reddit开始收取API使用费是有原因的。

      • 这肯定不是为了迫使用户使用他们那个糟糕的应用程序,在那里他们无法屏蔽广告,也绝对与他们的IPO无关。这是因为AI。

        • 啊,是的,他们开始收取API使用费的原因只有一个。你没事吧?我只是列举了Reddit开始收取API使用费的众多原因之一。毕竟,Reddit是一个以盈利为目的的网站。

    • 也许吧,但我每次都会选择Cloudflare而不是OpenAI和Meta。

    • 我认为寄生现象远不止于AI。我们正在被消化,而不是被寄生。

    • 赛博朋克经受住了时间的考验。“你最好不要在未受保护的互联网上。”那里有太多危险。叛逆的人工智能和其他垃圾……

      Cloudflare在这里保护你免受所有这些邪恶。只要加入我们的保护伞。

    • 有人在起诉要求将模型及其权重开源吗?

    • 这始终是自由开放的思想交流的代价。互联网的初衷就是让人们能够公开交流并自由发布想法。从未规定过利用已发布想法来赚钱是禁止的。

      技术已经进步,如今阅读所有自由交流的想法的总和变得特别有价值。但谁在乎呢?互联网仍然存在,并且仍然可以像往常一样自由交流想法。

      一个网站提供的价值微乎其微,Reddit上一个用户的贡献价值也微乎其微。难道我们要要求Reddit上的每个用户为其个人贡献支付1美分(这可能就是你帖子的价值)?我的网站可能被用于训练这些模型,但每个用户的贡献价值如此之小,我甚至不会期待为此获得几美分。

      真正从中获利的是Cloudflare或Reddit的所有者,或是任何其他通过他人贡献获利的守门人网站。

      这里的“寄生”行为,不过是大型企业之间利用特殊信息渠道展开的正常竞争。

    • [删除]

      • 这是什么鬼……

        即使你针对的是用户的博客文章,这种看待事物的态度也过于悲观和悲伤。

        我希望你只是心情不好,因为如果你每天都抱有这种贪婪、愤世嫉俗的心态(无论是对待博客、软件、线下/现实生活活动,还是其他任何事情),我为你感到遗憾。

        • GP的评论可能措辞尖锐,但我不认为这是一个站不住脚的观点:

          当我免费在网上发布内容时,即无需验证或支付,无论是Reddit评论、博客文章、Stackoverflow答案还是其他任何内容,我这样做是希望它能以某种方式对某人有用,而没有幻想能够控制当前或未来消费者的访问权限。

  2. 我启用了这个功能,它会自动调整 robots.txt 文件;不确定它还做了什么其他事情。

    # 注意:通过自动化手段(包括任何设备、工具或流程)收集本网站上的内容及其他数据,包括但不限于数据挖掘或内容抓取,均被禁止,除非(1)用于搜索引擎索引或人工智能检索增强生成,或(2)获得本网站运营商的书面许可。

    # 如需申请许可使用本 # 网站的知识产权及/或其他材料,请直接联系本 # 网站的运营商。

    # 开始 Cloudflare 管理内容

    User-agent:Amazonbot 禁止访问:/

    User-agent:Applebot-Extended 禁止访问:/

    User-agent:Bytespider 禁止访问:/

    User-agent:CCBot 禁止访问:/

    User-agent:ClaudeBot 禁止访问:/

    User-agent:Google-Extended 禁止访问:/

    User-agent:GPTBot 禁止访问:/

    User-agent:meta-externalagent 禁止访问:/

    # 结束 Cloudflare 管理内容User-agent:* 禁止访问:/* 允许访问:/$

    • “User-agent:CCBot 禁止访问:/”

      Common Crawl 是否专用于 “AI”

      CCBot 已经在之前的许多 robots.txt 文件中存在

      CC 如何知道或控制人们如何使用存档内容

      如果 CC 依赖于合理使用

         # 如需请求许可使用我们的知识产权
         # 及其他材料,请直接联系本网站运营商
      

      如果运营商对材料不拥有知识产权,那么他们是否需要获得权利人的许可,才能将此类材料授权用于创建大语言模型(LLMs),并收取许可费?

      网站条款和条件通常允许网站运营商将其他人的(“用户”)作品再许可用于创建大语言模型(LLMs),并收取费用吗?

      这笔费用是否与权利人分享?

      •    # 如需请求许可使用我们的知识产权
           # 及其他材料,请直接联系本网站
           # 运营商
        

        抓取工具不接受服务条款。

        讽刺的是,我只抓取过那些阻止CCBot的网站,否则我更倾向于从Common Crawl获取数据。

      • 阅读服务条款后发现,您需授予网站运营商无限许可,允许其在几乎任何网站上复制或传播您的作品。这本质上是为托管和展示内容所必需的

    • 这很有趣。理由与回应并不一致。

        > Cloudflare 做出这一改变是为了保护互联网上的原创内容,普林斯先生表示。如果人工智能公司未经许可或支付费用就随意使用各类网站的数据,人们将失去创作新数字内容的动力,他说道
      
        > 除用于 [..] 人工智能检索增强生成外,其他用途均被禁止
      

      这似乎是针对语言模型训练征税的措施,但为何要对RAG技术豁免?这似乎对在线内容创作者的影响更大,因为机器人正在取代他们的点击行为。

      • 基于此观点,您是否也建议禁止广告拦截器?因为与点击后未被展示广告相比,不点击并消耗资源更好,这基本上只是让主机方承担成本。

        允许RAG与搜索引擎提供页面重要片段摘要的方式类似,这有其合理性。

        一位博客作者不能抱怨自己的博客被破坏,因为他们极有可能整天都在使用谷歌或其他搜索引擎,以与他们试图贬低的方式完全相同的方式消费他人的内容。

        • 我想知道的是,大家一直在抱怨的抓取潮是来自试图抓取数据用于训练的人,还是机器人在进行RAG搜索。

          我明白大家都想要数据,但假设大型玩家已经抓取了整个网络。他们真的需要再做一次吗?还是说小玩家在复制可能已经存在于训练集中的数据?或者拥有自己抓取的互联网规模数据真的那么有价值?

          我觉得我可能漏掉了什么。我的预期是RAG流量会比用于训练的抓取流量高出几个数量级。不过从外部衡量这一点并不容易。

          • 我认为两者都有。目前法律尚未明确界定哪些行为是被允许的。这些抓取工具就像Googlebot或其他搜索引擎爬虫一样,试图寻找对用户有价值的任何新内容。

            人类每天(可能每小时,甚至更频繁)仍在向网上添加新数据,而最早获得访问权限的可能就是“赢家”,尤其是当他们的用户需要最新数据(而该服务恰好已抓取了这些数据)时。与搜索引擎/爬虫类似,也有一些大型玩家可能会尊重你的网站,但也有一些不使用速率限制或不尊重robots.txt文件的玩家。

          • 我也曾对此感到好奇。

            Cloudflare 近期发布了关于机器人流量的一些数据(https://blog.cloudflare.com/from-googlebot-to-gptbot-whos-cr…),这些数据表明,目前绝大多数机器人请求用于 AI 训练,而非 RAG。

          • 你应该问扎克伯格,因为从我们所见和被要求采取行动的内容来看,Meta是主要罪魁祸首,每天多次抓取网站的每一页。

            我指的是电子商务网站,其机器人每天多次抓取每个产品的所有变体。

        • 我认为我们不应该禁止广告拦截器,但我也认为,有机流量的损失可能会影响创建新数字内容的动力,至少与担心自己的内容被大语言模型(LLM)的训练数据吸收一样严重。

          • 在我看来,对大语言模型(LLMs)的反对更是一种哲学上的反对,很多人不喜欢它们,也不喜欢它们从他们的内容中学习的想法。除非你的网站有一些其他地方无法获得的独特信息,否则不会存在直接的个人风险。如果要说有什么更直接的威胁的话,那就是 RAG 了。

            • 这实际上是一个谁从内容工作中获得价值的问题。如果各种内容创作者的作品被大语言模型(LLMs)所利用,而大语言模型(LLMs)组织收取费用以获得所有价值,那么人们为什么还要创作作品,让机器人从中获益呢?为了曝光吗?曝光不能吃饱肚子,也不能交房租。人类必须获得报酬,而大语言模型(LLMs)(基础模型和使用 RAG 的输出)如果没有人类创作的作品和数据流,就无法改进。

              无论你称之为训练还是其他什么,本质上都是对人类劳动和努力的剥削,以换取AI股东的回报和技术人员的薪酬(如果创作者未获得补偿)。而根据现有证据,技术官僚体系并未成为通过这种方式获得权力的良好管理者。支付人类的劳动报酬。

            • 这不是哲学问题,而是经济问题。

              AI抓取工具可能使流量增加10倍(具体数值因网站而异),但对任何人而言都毫无实际价值。若从不同形式的“价值”角度审视:

              * 声称“这使用了AI”或许能在股市上提升数据,前提是你能说服人们相信这会提升数据(参见:市场保持非理性的时间可能比你维持清偿能力的时间更长)。

              * 说“这使用了人工智能”可能会满足一些企业要求。

              * 要求人工智能解决一个问题(你实际上会使用这个解决方案),让你可以“洗白”它所引用来源的版权(众所周知,如果问题不在其训练集中,大语言模型(LLMs)就会完全失效)。直接盗版可以提供相同的价值,而且错误/指导明显更少。

              * 让AI来娱乐你……嗯,或许有新奇感吧,但即便人们拒绝摆脱这种执念,世界上的选择也远超任何个人能探索的范围。仅“如何投掷某种球类”这个问题,其答案数量可能已超出这里任何人的认知。

              我漏掉了什么?

              • 如果AI没有提供任何价值,为什么有数亿人使用它?

                • 因为它被注入到一个原本正常运行的产品中——即使这会让产品变差——并且自动注入其想法。这被视为“有人在使用它”。

                  因为它与其他提供价值的产品捆绑在一起,这算作“有人在使用它”。

                  因为某个中层经理宣布我必须将人工智能添加到我的工作流程中……不管怎样,如果他们想付钱让我完成比平时更少的工作,那不是我的问题。

                  因为它是一个酷炫的新玩具,可以玩一玩。

                  因为肯定所有说“AI现在有用”的人不是在说谎,所以我们最好再调查一下他们的说法……不,还是彻底破绽百出。

      • 越来越多的人使用ChatGPT进行搜索,所以长期来看,阻止它似乎不是一个成功的策略。

    • 我好奇……谷歌抓取数据用于索引和AI训练,对吧?我好奇他们最终会不会说:好吧,你们可以选择是否使用我,如果不想帮助训练我的AI,那就别想得到我的搜索结果。这确实是个艰难的抉择,但某种程度上是自洽的。

      • 似乎很少有人抱怨谷歌会让他们的网站崩溃。谷歌也会公布其爬虫的IP范围,但你真的不需要对谷歌进行速率限制,他们知道如何适度爬取,不会让网站过载。

        • 理论上是这样——但在实践中,我不得不在我工作的两个大型网站上对谷歌进行限制。目前我将非缓存请求的速率限制为每秒10次。

          • 好奇这些网站上的内容是否对谷歌具有较高价值?例如,如果它们包含其他地方没有的新数据,或者它们只是普通网站,而你只是运气不好?

            我曾遇到过一些主要爬虫的异常行为,但从未在谷歌身上遇到过。我怀疑这是否与内容的实用性有关,或者某些网站是否陷入了软件漏洞(或其他异常行为)。

      • “拥抱、扩展、消灭”是谷歌的座右铭。是的,我了解微软与这句话的历史 😉 但谷歌在电子邮件、浏览器(谷歌的网络应用在火狐上运行良好,但会提示你使用Chrome)、Linux(安卓)等方面都做过类似的事情,我肯定还有其他我忘记提到的例子。

        所以,我也认为他们可能会这么做。

    • 对于我的这些无聊的个人网站,我对任何在User-agent中包含大小写不敏感的“bot”字符串且请求除robots.txt、humans.txt、favicon.ico等文件以外内容的请求,都会返回状态码444并关闭连接。这也会屏蔽搜索引擎,但我已经将它们的大部分CIDR地址块加入了黑洞路由。我可能是这里唯一会这么做的人。

      • 机器人以任何目的抓取你的个人网站,这会对你造成什么伤害或负面影响吗?

        • 这取决于它们是否频繁访问某个网站,以至于造成成本。机器人淹没服务器并不难。

    • 这至少比我看到的一家报纸的做法更合理,该做法是明确阻止大语言模型(LLM)抓取器和 ChatGPT 的搜索功能等。

    • 无视 robots.txt 文件会带来什么后果(除了 DDOS 攻击之外)?这些案件中有任何最终诉诸法庭的吗?

    • 我以为我看到Cloudflare插入了noindex链接?

    • 除了更新robots.txt文件(这实际上只阻止了其中一小部分)之外。

      似乎CF一直在收集数据并分析这些恶意代理。

      Cloudflare的这篇帖子进一步阐述了相关内容:https://blog.cloudflare.com/declaring-your-aindependence-blo

      基本上成了猫捉老鼠的游戏。

  3. 标题有些误导性:使用Cloudflare的网站现在有一个选择加入选项,可以快速阻止所有AI机器人,但对于使用Cloudflare的网站,此选项不会默认开启。

    Cloudflare 能够在管理层的 sole discretion 下实施后者这一事实,表明了 Cloudflare 所掌握的权力水平。

    • > 使用 Cloudflare 的网站现在可以选择快速阻止所有 AI 机器人,但这一功能不会默认启用

      你有相关来源吗?https://blog.cloudflare.com/content-independence-day-no-ai-c…确实提到“更改默认设置”。

    • 现在,AIBots与网站之间是一种对抗关系,而Cloudflare只是在对此做出反应。

      你对DDoS保护也有同样的看法吗?那不是也是一样的吗?

      • 他们什么也没做。他们试图插手一个不存在且永远不会存在的市场,在这个市场中,爬虫程序会为IP付费。他们认为他们将从机器人中获利,而不是保护你的网站。不要上当受骗。

        • 你是什么意思,他们试图插入自己?如果我有一个网站,我使用Cloudflare托管,我(作为合法的网站所有者)已经将Cloudflare插入其中。

          这不是CF到处说,你有一个很棒的网站。我要插入自己。

    • 他们除了拖慢互联网速度外,什么也做不了。我还没有遇到一个CF提供的挑战,我无法在半天内解决。

      这只是他们实施市场并尝试进入大语言模型(LLM) SEO 的第一步。他们并不关心你的网站或保护它。他们正在准备在抓取器和发布者之间进行切割。我为什么不直接去发布者那里达成协议呢?太愚蠢了,我非常讨厌 CF。

      Cloudflare 唯一会做的是 MITM 攻击。

      • 那么,如果我有一个网站,不想让其内容被用于大语言模型(LLM)培训,你有什么替代方案吗?

        • 认证?因为无论 Cloudflare 做什么,都无法阻止那些认真抓取数据的人。

          • 假设我正在讨论一些我不希望被授权墙屏蔽的内容。你的立场是否仅仅是所有此类网站都应放弃任何阻止内容被用于大型语言模型(LLM)训练的努力?

  4. 通过Cloudflare提供的我的数据量已从两年前的<20GB/月增加到100GB/月,而这些都是相对静态的个人兴趣网站。同一时间段内实际访问量减少了约一半,因此我推测这其中很大一部分可能是Cloudflare为降低资源使用成本而实现的节省。

  5. > 如果人工智能公司未经许可或支付费用就随意使用各类网站的数据,人们将失去创建新数字内容的动力

    我看不出来这能避免发生。人工智能在发展过程中本质上会抑制其他形式的数字互动。

    其增长机制正在摧毁其他类型的数字内容。最终它将摧毁网络,而网络恰恰是其主要“食物来源”。

    • 此外,广告拦截器的使用率显然已达30%。因此,这其实是一个多余或更复杂的论点。

      • 广告拦截器仅抑制商业化内容创作,而非全部内容。我认为这实际上提升了内容的质量。

    • 就像癌症一样?

    • 是的,每个人都希望人工智能能做的事情:生成娱乐内容并与人类互动,包括经济层面的互动,都必须发生,否则人工智能将面临资源匮乏。

      • 正是这些行为会导致其资源匮乏。虽然它看似饱食终日,但实际上只是在人类寻求廉价替代方案以逃避实际工作时,不断循环自身产生的垃圾。

    • 就像资本主义现在转向以剥削人为主要输入一样?

      • 此类比较很少能引发有意义的讨论。

        让我们专注于讨论现实问题。

        https://learnpythonthehardway.org/为例。它影响了一代Python开发者。不仅是主网站,还有它启发的海量Python代码和相关内容。

        如果AI能取代它们,为什么还要写这类教材/网站/指南?人工智能公司实际上在传达一个信息:你不需要再走艰难的路,只需随波逐流。

        不过,如果没有《Learn Python the Hard Way》和类似内容的存在,人工智能在编写Python代码方面可能会表现得更差。这就是我所说的“主要食物来源”,即那些影响大量人群的优质内容。除了像LPTHW这样更受欢迎的案例外,其净积极影响往往难以预测或识别。

        如果我的预测正确,没有人会注意到优质内容已经停止生产。表面上,内容似乎仍在以与过去相同的方式被创建,但实际上,像LPTHW这样的长尾项目在人们意识到之前就已经停止了。

        再次强调,我看不出来有什么办法能改变这种局面。无论是对人工智能公司还是内容创作者来说,这都将发生。我错了的世界才是最好的世界。

        • 类似地,我记得有人提议用AI取代新招聘的未经培训的员工。毕竟,无论如何都需要一位资深工程师来验证新员工的贡献,而他们也可以对AI代码进行同样的检查。

          但问题是,当这些负责筛选的资深工程师退休时,你如何培训并取代他们?整个系统建立在通过新员工逐步积累经验的链条上。

          • 据我所知,公司认为编程AI最终能比资深工程师更擅长编程和教学。

            这基于两个假设:

            – AI会变得更好。使用该系统的开发者会将知识转移给AI。

            – 几年后,资深工程师将有所不同。他们应是能够与人工智能反馈循环互动的人。

            以下是我认为这行不通的原因:

            – 资深开发者学习的知识远超其产出。其中部分知识从未直接转化为代码。_但这些知识会间接体现_。

            – 高级开发人员的知识来自“学校”,而不仅仅是阅读。这些“学校”并非真实的物理场所。它们是传统或理念,形成了一个非常长的尾巴。这些理念,同样,无法直接转化为代码或文字。

            – 初级开发者会感到尴尬。当你说“别再做这些无意义的事”时,他们会停下来反思,因为他们尊重资深开发者。他们可能不同意,但一颗豌豆已被放在他们的床垫下,他们会思考你让他们停止做的“这些无意义的事”以及原因。这就是他们进步的方式。到目前为止,人工智能尚未展现出这种能力。

            高质量内容的创作是其中一种“设计理念”的核心要素。你应当承担传递知识的责任。保持代码库简洁易懂也是许多设计理念的显著特征。从基础开始设计是另一种常见理念,等等。

      • 没有什么是完美的,但它仍然比其他选项更好

  6. 我听到很多人在HN上抱怨机器人流量拖慢了他们的网站,作为一名网站运营商,我真的感到困惑。如果你已经使用了Cloudflare,一些基本的缓存配置应该能确保大多数机器人流量命中缓存,不会拖慢你的服务器。即使你不愿意这样做,带宽和CPU现在这么便宜,也不应该有太大区别。为什么大家都这么生气?

    • 作为一个因AI流量导致服务中断并现在使用CloudFlare工具的人:

      我的网站大部分内容都缓存在多个不同层级中。但有些面向未认证公众的内容无法缓存且仍需保持功能正常。频繁访问这些端点导致我的应用崩溃。

      此外,即使存在多层缓存,生成成本高昂的内容仍可能漏网。我的网站拥有数百万个面向公众的页面,当大量请求同时发生在加载较重的页面上时,重新生成内容会导致请求积压,进而引发错误,而错误又会导致缓存无法成功填充。因此,AI流量持续攻击这些端点,它们无法被缓存并不断抛出错误。情况由此恶化。

    • 这是一个相当大的假设。

      我参与的最大网站拥有数十万个页面,每个页面支持约10种语言——这已经意味着数百万个页面。

      通常运行正常。昨天全天平均处理了不到1000次请求每秒(RPS)。

      AI爬虫曾导致系统崩溃,因为单个爬虫在广泛的IP范围内增加了100、200或更多RPS——问题并非出在额外请求的数量上(尽管对于单个“用户”而言已非常不均衡),而是它们可能触发了被robots.txt排除且受其他速率限制措施保护的昂贵接口,而这些措施并未预料到DDoS攻击。

      • 好吧,显然我对规模一无所知。单个机器人每秒200次请求听起来很糟糕!所有10万多个页面都必须实时更新才有价值,还是可以从几分钟/小时/天前的缓存中提供许多页面?

    • 假设我已经使用了Cloudflare,这算是个开端。现在维护一个简单网站是否必须使用这类服务?

      • 要么使用Cloudflare,要么使用Anubis(https://anubis.techaro.lol/docs),是的。

        • 所以这些公司破坏了互联网

          • 哪些公司?

            OpenAI、Anthropic、Google?不,它们的机器人行为还算规范。

            那些部署不遵守合理速率限制、每小时抓取同一静态页面数千次的中小型AI公司?没错

            • 一个例子,但至少对于托管单个公共仓库的小型服务器而言,这些公司中没有一家拥有“行为良好的”机器人。它们可能已经学会了更好地行为,但我无从得知,因为我唯一能做的就是将它们全部列入黑名单并关闭仓库。

              • 这些是小型公司伪造User-agent为大型公司以规避反制措施。

    • 我听到的故事大多是关于抓取机器人找到类似“获取指定日期范围内的所有帖子”的API,然后用各种起始/结束日期组合疯狂请求。

    • 我也对这种强烈反应感到有些困惑/不解。但我预计会有很多优化不佳的网站希望退出。

      我很难想到比Anubis检查器传播得更快的网络相关库。现在它无处不在!https://github.com/TecharoHQ/anubis

      我惊讶于我们没有看到更多努力来限制请求频率。我假设其中许多是分布式爬虫,但感觉一定有一些活动池在少数几个IP上启动,而且它们的时间关联性非常明显。也许这不是事实。但感觉上,网络比其他任何事物都更需要一些开源软件来添加更多“420 提升你的平静”响应,就像感觉上那样。https://http.dev/420

      • 这种反应源于以下因素的结合:

        – 对生成式人工智能的普遍反对

        – 认为人工智能与搜索引擎不同,后者依赖爬虫技术,但人工智能并未带来任何回报

        – 人工智能公司的爬虫行为比传统搜索爬虫更不规范,不遵守robots.txt协议,爬取频率更高、更具侵略性、更彻底、更冗余,且来自更广泛分布的IP地址

        – 部分公司通过在现有被允许/白名单User-agent(如Facebook)下偷偷进行AI爬虫活动(Facebook曾明确使用“facebookexternalhit”User-agent,用户通常会允许该代理访问Facebook预览内容;最终他们为爬虫活动创建了新的User-agent)

        – 同时出现大量明显爬虫活动,且使用伪造的User-agent:例如,不断随机切换所有版本的Chrome、Firefox或其他已发布的浏览器;这些爬虫的来源、参与的实体数量,以及它们是否真的在为AI进行爬取,无人知晓,但这很可能是事实。

        更好的优化和缓存可以让这一切不再那么重要,但并非所有内容都能被缓存,许多小型操作在没有这些额外流量的情况下也能正常运行,未来也同样可以,所以你能怪他们转向封锁吗?

      • 我不是网站托管方面的专家,但读过Anubis上的一些博客文章后,那些人确实已经到了走投无路的境地,试图用你提到的那种技术来阻止AI爬虫。

        • https://xeiaso.net/blog/2025/anubis/ 链接到 https://pod.geraspora.de/posts/17342163,其中提到:

          > 如果你试图对它们进行速率限制,它们就会不断切换到其他 IP 地址。如果你试图通过User-agent字符串来阻止它们,它们就会切换到非机器人User-agent字符串(真的,不是开玩笑)。这简直是对整个互联网的 DDoS 攻击。

          我直觉认为,IP地址的切换行为并不难追踪。其访问模式在不同身份间具有明显的可追踪性。

          但这并非易事,它需要构建新系统并在每次请求时进行额外处理(当流量开始异常升高时,作为第一道防线)。

          让客户端通过一些数学验证流程显然是一个明智的策略,攻击者可能无法突破。但我仍然认为,对于识别和限制这些稍显烦人的流量模式,可能存在一些非常好的机会。因为这种行为本身会留下无法隐藏的特征,并且绝对可以进行流量限制。我希望看到这一领域得到探索。

          编辑:哦,当然,提交了包含1.7TB日志的新内容,记录了AI爬虫的活动。现在我们可以利用机器学习开发更有效的速率限制技术!https://news.ycombinator.com/item?id=44450352 [https://huggingface.co/datasets/lee101/webfiddle-internet-ra…] (https://huggingface.co/datasets/lee101/webfiddle-internet-raw-cache-dataset)

          • 这并没有你想象中那么有用。如果包含了机器人发送的所有HTTP头部和其他元数据(如TLS ClientHelloInfo),它会实用得多。

    • 我对这种DevOps不太感兴趣。在这种情况下,什么才是良好的基本缓存?

      • 归根结底:

        1. 使用 Cache-Control 头部正确表达网站的缓存方式(https://developer.mozilla.org/en-US/docs/Web/HTTP/Guides/Cac…)

        2. 使用CDN服务,或至少使用缓存反向代理,以处理大部分可缓存请求,从而减轻(通常成本更高)源服务器的负载

        • 需注意,许多AI爬虫会不遗余力地进行缓存破坏。出于某种原因,它们似乎认为必须获取最新版本,而不信任您的缓存。

          • 您可以使用缓存控制标头来指示自己的 CDN 积极刷新资源,但始终从缓存中为外部客户端提供服务。相关内容在“管理缓存”部分的链接中有详细说明

          • CDN 可以配置为忽略请求中的缓存控制标头并仍进行缓存。

      • Cloudflare和其他CDN通常会自动缓存您的静态页面。

    • 这并不复杂。我曾参与过一个大型网站的开发。我们没有足够的计算资源或I/O(尤其是数据库I/O)来实时生成网站内容。大规模爬取既会生成冷页面/对象(CPU + I/O),又会将它们拉入缓存,这会大幅降低缓存命中率。这很容易导致网站崩溃。

      缓存在大规模环境下成本高昂。因此,允许笨拙的爬虫进行大规模或频繁爬取,要么需要在缓存上进行大量投资,要么会导致网站速度变慢并影响所有用户体验。而我们构建网站的目的是为用户服务,而非为公司提供训练数据。

      如其他人所提,谷歌的爬虫能力远超99.9%的其他爬虫。他们非常谨慎,不会让你的网站崩溃,并通过搜索提供流量(或曾经提供)。因此这是一种交易,而非掠夺。

      更不用说我更愿意不与Cloudflare合作,因为我不喜欢那些不公开配额的公司。如果超过X意味着我需要一个起价为$10k/月的企业账户,我需要知道这个X。Cloudflare的商业惯例似乎是让客户超过配额,然后强硬要求他们付费,否则将立即被踢出服务。

  7.   > 当您通过预配置的托管规则启用此功能时,Cloudflare可以检测并阻止符合robots.txt规范、尊重抓取速率且不向您的网站隐藏行为的经过验证的AI机器人。该规则还已扩展,以包含更多不遵守规则的AI机器人的签名。
    

    我们已经知道像Perplexity这样的公司正在掩盖其流量。我确信事情并非表面上看起来那么简单,但仅从表面上看,惩罚那些尊重规则且透明的机器人是否只会鼓励混淆行为?

    编辑:这个链接[0], 在其他地方的评论中提到,回答了这个问题。简而言之,混淆行为不起作用。

      > 我们利用Cloudflare的全球信号计算Bot Score,对于上述AI机器人,这反映了我们正确识别并将其评定为“可能为机器人”。
    
      > 当恶意行为者试图大规模爬取网站时,他们通常会使用我们能够识别指纹的工具和框架。对于每个指纹,我们利用Cloudflare网络(该网络平均每秒处理超过5700万次请求)来评估该指纹的可信度。为了训练我们的模型,我们对多个信号进行全球聚合计算。基于这些信号,我们的模型能够准确标记来自上述示例中这类规避型AI机器人的流量为机器人。
    

    [0] https://blog.cloudflare.com/declaring-your-aindependence-blo

    • “惩罚尊重且透明的机器人难道不会鼓励混淆行为吗?”

      当然,但我们早在20多年前就已跨越了这一关卡。这并非在原本不存在军备竞赛的地方制造军备竞赛。

      这是我对所有人提出类似想法的通用回应。“但机器人可以……”,是的,它们已经这样做了20多年,人们也一直在与之抗争。这不是新问题,不是新解决方案,军备竞赛短期内不会结束,这一切都不是新鲜事。

    • 下一行:

      > 该规则已扩展以包含更多不遵守规则的AI机器人的签名。

      超级机器人战斗模式页面上的“阻止AI机器人”规则确实过滤掉了大部分机器人流量。我从机器人那里获得的流量是用户流量的10倍。

      它绝对不依赖于robots.txt或User-agent。我不得不编写一个页面规则绕过,以便在启用该规则后,我的自有工具能在网站上正常运行。

      • 你过滤的这些“机器人”中,有多少是真正的机器人,又有多少是被buttflare误认为机器人的普通用户?

        • 如果你运营过网站,这很容易看出:比较启用机器人过滤前、启用后和启用机器人阻断器后的分析数据。

          有一个明确的时刻,你会被AI机器人雷达锁定。对我这个大型论坛来说,是在一个月前。

          一夜之间,“72名用户正在查看通用讨论”变成了“1720名用户”。

          40%的请求被缓存变成了3%的请求被缓存。

    • Cloudflare已经知道如何让那些他们不喜欢的人在网上陷入困境。

      我认为robots.txt中的条目是指那些不会被标记为“恶意”的AI机器人,它们有机会被网站允许。其余的将获得Cloudflare的特殊待遇。

    • >惩罚尊重且透明的机器人难道不会鼓励混淆行为吗?

      他们是Cloudflare,而且要从他们那里隐藏一个正在抓取互联网大量内容的机器人并不容易。更何况他们可以识别任何狡猾的使用行为,大型公司不得不与他们合作,所以我只能假设存在沟通渠道,Cloudflare可以与你就不良行为进行一番交谈。我不确定律师是否经常参与,但我想他们应该会参与。

  8. 大型人工智能公司真的会遵守robots.txt协议吗?即使他们公开的爬虫可能遵守,他们肯定也有秘密的爬虫活动,就像他们非法盗取书籍、图像和用户数据来训练模型一样。

    • 我的想法也是如此,遵守robots.txt只是一个惯例。没有必要遵循robots.txt,至少从技术上讲没有必要。我也不认为有任何自动的法律要求。

      也许网站可以在服务条款中添加“必须遵守robots.txt中设置的政策”,但我不知道这是否足以让爬虫放弃。

      • Cloudflare 及其客户多年来一直试图通过法律手段打击爬虫。这就是全部。虽然毫无意义,但他们可能正在为另一场法律战做准备,试图将 robots.txt 定义为具有法律效力的合同。他们将利用这个他们用来欺骗用户的 marketplace 来实现这一目的。他们注定会失败。

    • 难以判断,因为小型爬虫会模仿大型公司以避免被封禁。

    • 缺乏明确性,但在我看来,这部分流量的绝大多数实际上是人们向 AI 提问,而 AI 则外出搜寻答案。当AI工具被用作网页浏览器进行研究时,是否仍需遵守robots.txt协议,还是该协议仅针对搜索索引?

    • 尽管我讨厌Cloudflare如今作为守门人的角色,但它实际上拥有迫使AI公司妥协的实力。

  9. 当前的机器人列表相当简短:

    https://developers.cloudflare.com/bots/concepts/bot/#ai-bots

    • > 人工智能机器人

      > 您可以选择一项管理规则,阻止我们归类为人工智能(AI)爬虫(“AI 机器人”)的机器人访问您的网站。客户可以选择这样做,以防止其内容被用于与人工智能相关的用途,例如训练大语言模型(LLM)。

      > CCBot(Common Crawl)

      Common Crawl 并非 AI 机器人:

      https://commoncrawl.org

    • Cloudflare 处理了大量网络流量。我推测这些是他们目前看到的最大型机器人,任何新出现的竞争者都会在发现后被添加。虽然可能无法真正阻挡所有内容,但他们的网络覆盖范围足以检测到比大多数平台更多的异常。

      • 他们在说谎。除非我们主动告知身份,否则他们无法检测到爬虫。

    • 如果封锁措施生效,这足以阻断大多数网站超过一半的流量。

  10. 但这如何有效对抗 Gemini 和 OpenAI?它们可以不依赖各自的 Google 和 Bing 爬虫来抓取内容。

  11. 听起来非常基础,可惜。

    有人知道为什么这些网络爬虫/机器人标准没有发展吗?我认为robots.txt是在1994年发明的(感谢ChatGPT)。人们尝试过使用站点地图、RSS和IndexNow,但感觉大型组织仍在依赖HelloWorld.bas技术来控制整个平台。

    我想启动端点/MCP等,并让智能机器人与我的服务进行通信。让它们请求访问权限、请求内容、支付内容费用等。我希望为机器人提供消费我内容的解决方案,而不是被迫在完全访问和完全不访问之间做出选择。

    我支持人工智能,但请尽量做得更好。目前互联网正被愚蠢的机器人农场吞噬,并被推送到聊天界面。它们不想回到源头,而当它们这样做时,错误率高得离谱。

    • > 我认为 robots.txt 是在 1994 年发明的(感谢 ChatGPT)。

      不是针对你,但我发现打开新标签并输入“!w robots.txt”(对于支持感叹号标记的搜索引擎)或“wiki robots.txt”<点击>(对于谷歌吧)更快。答案就在那里,无需向大语言模型(LLM)解释我的需求或验证[1]。

      [1] 当然,维基百科可能会出错,但至少它是一个常见的错误来源,如果有人质疑我,我可以指给他们看。此外,我对维基百科错误性的预测模型表明,出现这种情况的可能性非常低,而对于 ChatGPT 来说,这种情况则更随机。

    • 这条评论似乎来自Cloudflare的员工。

      这显然是Cloudflare构建市场平台的第一步,他们将(失败)尝试在爬虫和发布商之间充当中间人,而这个市场本身毫无意义。

    • robots.txt于1994年发明(感谢ChatGPT)

      1994年被提出并讨论为一种可能性。

      2019年被提议为标准。

      2022年被采纳为标准。

      感谢IETF。

      • 这种表述非常具有误导性。从“可能性”直接跳到“标准”的列表项,暗示标准化是开始使用的转折点。但实际上,它在很久以前就被广泛使用了。标准只是一个几乎无关紧要的附带说明。

  12. 网络的每一次演进,从Web 2给我们带来封闭的花园,到Web 3给我们带来,嗯,什么都没有,再到我们现在所处的状态,都让我们离一个由社区和个人知识库组成的网络越来越远。

    当然,保真度有所提升,但太多东西已经丢失。

  13. 这很好。但我对Cloudflare的权力仍存有顾虑。今天它在阻止AI爬虫,明天会不会开始阻止所有未能通过硬件验证的浏览器?

  14. 这难道只对博客、新闻网站或论坛有用吗?为什么我要让AI对我的产品了解得更少?我希望它能理解它、讨论它,并最好能推荐它。应该默认关闭。

  15. 昨天讨论过(270+条评论)[0]

    [0]https://news.ycombinator.com/item?id=44432385

  16. 他们是否修复了RSS源的自动屏蔽问题?

    https://news.ycombinator.com/item?id=41864632

  17. 人工智能会无休止地爬取我的网站,很快就会耗尽我的 Supabase 免费计划的出口配额,但 Cloudflare 可以阻止这一切。

  18. 我猜他们会通过阻止大语言模型(LLM)客户端摄取数据作为上下文来“保护在线原创内容”?

    我对仅仅通过阻止机器人就能有效阻止原创内容进入训练集并不乐观。目前,我只是假设我放在网上的任何东西最终都会被用来训练一些大语言模型(LLM)。

  19. > Cloudflare 可以检测和阻止符合 robots.txt 并遵守爬网率、且不会对您的网站隐藏其行为的经过验证的 AI 机器人。

    真正造成负担的是那些通过住宅代理服务隐藏行为的机器人——至少对我网站而言是这样。而非这些大型商业AI供应商。

  20. 我已在Mastodon服务器上使用该方案一段时间,经过一些调整确保不会阻断合法流量后,效果非常理想。微软和Meta的流量超过了其他所有流量的总和,这足以说明Mastodon有多么嘈杂。服务器负载大幅下降。

    它还完全阻止了Perplexity,至少在我看来是这样。

    而robots文件毫无作用,它们仍然会请求该文件数十万次,而不是缓存它。每次请求时,它们都会先访问该文件,然后再访问目标URL。

    • 你考虑过Anubis吗?我知道它更难安装,但个人认为,Mastodon的意义在于尽可能避免中心化,而CloudFlare正是那些维持互联网中心化的企业之一。

      • 没听说过,我会去了解一下。我同意,我宁愿不用CloudFlare,但考虑到他们提供的免费服务,这确实是个难以拒绝的优惠。

    • 这根本没用,兄弟。完全没用。OpenAI或其他公司只会雇佣像我这样不会被发现的人。别破坏用户的体验,别让CF用更多臃肿的JavaScript挑战页面和侵犯隐私的指纹识别技术填满互联网。别让CF成为互联网的警察。我们简直是把互联网拱手让给这家企业,让他们对我们的隐私进行中间人攻击,天知道他们还会做什么。太疯狂了。

      • 他们明确表示这显著降低了他们的服务器资源使用量。你是在暗示他们在说谎吗?

      • 你想让他们承担服务器成本,免费为AI爬虫提供内容?另一种选择是Anubis,它可能以另一种方式同样让用户感到烦人。

      • 好吧,替代方案是根本不运行实例,所以……你有什么建议?我不会为其他服务付费,运行这个网站已经够贵了。

        目标不是阻止100%的爬虫,而是将服务器负载降低到不会让网站崩溃的水平。

      • 你为什么认为自己在这件事上占据道德制高点?

  21. s/A.I. 数据抓取器/在未经批准的平台上运行的未经批准的浏览器/

    他们多年来一直试图这样做。现在,“人工智能”为他们提供了一个方便的借口。

  22. 从开源项目的角度来看,我们希望在我们的文档网站上禁用此功能。实际上,我们希望这些文档在训练或在线使用过程中能够被大语言模型(LLMs)轻松发现。

  23. 太好了,作为普通用户,我期待看到更多验证码。

  24. 我认为这是未来趋势,随着人工智能网络取代人类网络。

    如有兴趣加入我们的开源社区,请随时联系。

  25. 我不想默认启用此功能。我希望我的网站能被AI聊天机器人收录,以提升SEO。

  26. 如何反其道而行之?优化内容以提高被AI爬虫抓取的可能性?我清楚传统以谷歌为中心的SEO已不足以应对,因为这些AI爬虫常使用其他网页搜索/索引API。

    • 若想让内容被Perplexity或OpenAI索引,可从LLM SEO公司获取脚本标签并嵌入网站。它们对我来说还太新,不建议使用。

  27. 一如既往,这是错误的方法。

    开放网络类似于公共领域和公共土地。这就像在高速公路广告牌上安装监控摄像头,检测自动驾驶车辆,并用聚光灯照射其摄像头以阻挡其查看广告。这样做的目的是什么?

    最终这些问题将需要通过法院裁决:

    1) 网友是否有权保持匿名?如果没有,那么我们必须披露自己是人类还是人工智能。随意监视我们并因行为不符合社会规范而阻断我们,将构成隐私侵犯(最终演变为“请出示证件”)。

    2) 阻止某些用户访问是否构成歧视?如果不是,那么围绕收费公路将形成一个由国家批准的公民权利滥用市场(想想“白人专用饮水机”)。

    3) 人工智能或人类出于学习目的下载受版权保护的材料,是否等同于盗版并出售以牟利?如果如此,我们将重演2000年代至2010年代“人人皆为罪犯”的种子下载时代,当时“提供下载”与“从盗版中获利”被等同对待,并再次遭遇HBO、RIAA/MPAA等组织通过威胁法律行动(如以违反DMCA为由起诉)切断用户互联网连接的滥用行为 (该法案本就不应被立法通过)。

    我相信还有更多类似案例。若我们渴望生活在自由社会,就必须坚决反对私营企业实施的严酷审查措施。像Cloudflare这类大型垄断企业进行的内容把关行为绝不能被容忍。

    我希望每位阅读此文的人都能寻找Cloudflare的替代方案并告知朋友。如果他们坚持以盈利为目的对我们的公民权利发起攻击,那么我希望我们能通过与电子前哨基金会(EFF)及 elected officials 合作,最终以反垄断指控起诉Cloudflare。

    Cloudflare已证明其缺乏明辨是非的能力。这令人质疑其技术实力及对互联网运作模式的整体愿景。通过采取此类行动,他们已像谷歌移除其行为准则中的“不作恶”口号以实施审查并在中国运营(以及其他相关目标)时那样,自取其辱。

    编辑:我只是想补充一点,我明白这可能是一个可选功能。但这不是重点——我的意思是,这将开创一个不良先例并引发不必要的军备竞赛,而我们本应质疑的是,爬取和训练AI使用受版权保护的材料是否本身就是威胁。

  28. 我昨天看到他们将允许网站按每次抓取收费。

    看来Cloudflare刚发明了新的应用商店。

  29. 为什么每篇文章都声称这是自动的?它需要手动开启,或者至少在原始博客文章中没有提到自动。

    我真的希望我们能继续像训练人类一样训练AI——基本上是免费的。

  30. 这有点荒谬。减慢速度可以理解,但阻断?真正想获取内容的人会找到办法,而其他人则不得不做愚蠢的谜题才能点击链接,或者在看到内容前先运行加密货币挖矿。

    我最近访问了一个我经常光顾的大型本地拍卖网站,收到了“我们检测到您网络中的异常流量”的提示,并要求“证明您是人类”。随后系统显示“您在0.4秒内完成了验证码,您的IP已被封禁”。真的吗?难道我现在要放慢浏览速度吗?我尝试了不同的浏览器、不同的操作系统、登录、清除cookie等操作。当我尝试搜索时,结果相同。在联系他们的客服后,花了4小时才解封。而解释是“你点击得太快了”。

    在某些时候,这简直就是一场闹剧,这种麻烦并不值得。此外,虽然我的故事与机器人无关,但也许有一天,本地的大语言模型(LLMs)会变得足够强大,我可以对它说“重新订购我的猫粮”,它就会去执行。为什么他们如此坚决地要“阻止它”(剧透:他们做不到)。

    对于那些说大语言模型(LLMs)已经能够订购猫粮的人,我认为还为时过早。首先,猫粮必须在销售/促销(有时还会附带额外赠品)。其次,它应该健康(无谷物),第三,味道要符合我的猫的口味。到目前为止,我还不打算相信大语言模型(LLMs)能做到这一点。

  31. 认为可以发布数据供人们下载和阅读,但不允许人们下载并存储、打印、思考或用于训练的想法注定会失败。

    如果你不希望人们阅读你的数据,就不要将其发布到网上。

    认为版权仅限于“人类眼睛”的概念是荒谬的。

    • 面对大量机器人同时访问网站的问题,更贴切的类比是“允许免费使用复制器,但不能有人通过每分钟要求在自己的房间里生产十吨食物来破坏乐趣”。

  32. 我看不出来这不会导致User-agent字符串或其他混淆手段的滥用。

    • Cloudflare的过滤机制早已远超单纯检查UA字符串或其它主动报告信息。他们几乎肯定会使用指纹识别和行为分析技术。

    • 爬虫无需做任何改动,只需忽略robots.txt文件即可。是否遵循该文件的指令取决于客户端,但从技术上讲,客户端完全可以忽略文件中的所有内容。

  33. 所以简而言之,它会调整你的robots.txt文件,并依赖Cloudflare来检测爬虫行为,但实际上并未进行任何复杂的住宅代理过滤或常见的绕过方法,这些方法在Cloudflare的转发模式下是有效的,我理解得对吗?

    这只是将AI代理“地下化”,使其采用专注于隐蔽性的爬虫行为,从而更难被检测到。

  34. 这很有趣。我是 Cloudflare 的粉丝,感谢他们为许多人提供的免费层级。

    今天我看到这篇文章,讲述 Cloudflare 阻止抓取工具。在某些有用且合法的情况下,我会让 Claude 帮我进行研究。我不确定Cloudflare能否区分来自AI客户端的合法搜索/研究流量与抓取行为。默认被封锁的网站可能包括小型创作者的内容(除非在大型平台上有合作协议?),而像亚马逊等有产品销售的大型企业,很可能能够通过合作协议在搜索结果中获得更高的曝光率。

    几天前,Cloudflare还计划向AI公司收取抓取内容的费用,这些内容是他人内容的缓存副本。我猜想未来可能还需要向数据所有者支付费用。能够将此用途(出售/授权内容或抓取)排除在外,将是一个有用的杠杆。

    将这两个故事结合起来:

    – 这是不是一种新的在AISEO(搜索无处不在优化)中出现的形式,以在AI的语料库或搜索网络的能力中出现,还是支付许可费而不是广告费?这些可能是新的商业模式,但试图看看这些步骤可能走向何方,以及今天需要考虑什么。

    – 由于训练数据是人工智能公司最宝贵的资产,而这为Cloudflare提供了另一条收入途径,这可能看起来像是一种帮助内容授权作为服务(Content Licensing as a Service)的解决方案。

    我希望看到进一步抽象化这一过程会走向何方

    也许我漏掉了什么,其他人是否也这样看待,或者有其他令人启发的观点?有人在考虑为使用Cloudflare的任何部分开发自己的服务吗?

    • 如今搜索访问似乎更具价值,因为推理需要实时访问网站数据。

  35. 我仍然不确定这是否会非常有效,因为许多最严重的违规者并未标识自己为机器人,且经常更改User-agent。Cloudflare是否曾提及过识别这些不良行为者?

  36. 账户墙 🙁

  37. 除了Cloudflare,没有人能做到这一点。

  38. 可怜的ChatGPT用户,没人理解你。因为用户使用的浏览器确实有些奇怪就屏蔽真实用户,这完全偏离了重点。

  39. 网络破坏和知识产权盗窃必须通过法律手段解决。无论单个法官的意见如何,“AI”抓取行为已构成版权侵权。这需要在法律中明确规定,抓取者必须受到与西方政府对数千名因版权侵权而破产或入狱的个人相同的待遇。

    我们正处于网络内容盗窃的Napster阶段。

  40. 不幸的是,我认为这是徒劳无功。信息网站几乎已死。人工智能包含了所有已发表的人类信息。如果你将你的网站定位为问题的答案,它将无法生存。

    “信息”已死,但内容并未消亡。故事、同理心、社区、连接、产品、服务。此类内容正在爆炸式增长。

    最大的挑战是可发现性。过去,信息套利是让你的内容被发现或赚取利润的一条途径。随着人工智能的出现,这种情况已经结束。需要新的发现方式,主要是基于网络和社区的。人工智能会给你一些骨头,但这将仅占SEO所做工作的10%。

    • >人工智能包含了所有已发布的人类信息

      不,它绝对没有。它确实是在大量人类知识/互动数据上进行训练的。

      一个完美呈现/压缩所有这些信息的模型,应该是一个压缩文件,而不是模型文件。

      • 人工智能提供商已经收集并将继续收集互联网上所有已发布的信息,或几乎所有信息。由于“信息”是无限的,人工智能无法在完全意义上包含“所有信息”。但它肯定可以回答任何可爬网网页曾经针对过的、与现有搜索查询相关的几乎所有重要问题。

        无论如何,正如现实世界中的搜索引擎优化(SEO)所表明的那样,信息查询的流量正在急剧下降,效果是一样的。这种现实世界的影响才是最重要的,无论采取何种阻止措施,都不会逆转。

    • 你假设大语言模型(LLMs)会取代搜索引擎。为什么会这样?

      在我看来,要实现这一点,需要进行大量的优化,因此不太可能。大语言模型(LLM)的答案速度慢且不可靠。根据我的经验,即使使用像困惑度这样的东西,也比使用常规搜索引擎没有多大价值。

      • 大语言模型(LLM)不会完全取代搜索引擎,但无论如何,谷歌和必应正在向大语言模型(LLM)发展。因此,今天的“搜索引擎”与昨天的搜索引擎已经不同了。我们将大语言模型(LLMs)出现之前的时间称为传统搜索。大语言模型(LLM)优先的产品整合了传统搜索的一些方面。而传统搜索则添加了大语言模型(LLM)的答案。

        传统搜索对于交易、产品、实时和行动导向的查询仍然非常有用。此外,它还可以发现本身具有价值且无法通过大语言模型(LLM)重新表述的教育/娱乐内容。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


京ICP备12002735号