神秘网站 Archive.today 正成为FBI的调查目标
这是互联网上最神秘却也最知名的网站之一。十余年来,Archive.today积累了庞大的用户群体,人们通过该服务访问网页历史快照。该服务常被用于绕过付费墙。
这是互联网上最神秘却也最知名的网站之一。十余年来,Archive.today积累了庞大的用户群体,人们通过该服务访问网页历史快照。其功能类似互联网档案馆的Wayback Machine,但基本不受规则约束,因此可能提供匿名访问。令媒体行业扼腕的是,该服务常被用于绕过付费墙。这种操作得以实现,正因其不遵循常规规则与法律,且不提供退出选项。
迄今为止,运营者始终未受实质制约。尽管服务历史中偶有小插曲——例如顶级域名运营商曾拒绝其继续使用某个存档域名——但据称依靠捐赠和自有资金运作的项目并未遭受严重威胁。
美国法院裁决
如今archive.today运营者显然面临更大危机。近些年他们明显低调了许多。例如两年前,博客还定期回答用户提问。在沉寂逾年的官方X账号上,十月底突然出现新帖新帖。帖文仅写着“金丝雀”二字并附网址。此处提及的金丝雀,暗指采矿业的古老习俗——随行的金丝雀若突然死亡,便警示矿工存在无形毒气威胁。
网站运营者担忧的致命危机,显然与X平台帖文链接的PDF文件相关PDF有关。该文件载有美国联邦调查局(FBI)获取的法庭命令,要求加拿大服务商Tucows提交archive.today幕后客户的完整数据,包括地址、连接记录及支付信息。若Tucows拒不配合,将面临处罚。目前尚无法核实该法庭命令的真实性及网站运营者获取途径。
运营者是否来自俄罗斯?
法庭文件未明确说明FBI为何关注archive.today(该网站亦可通过archive.is和archive.ph域名访问)。但调查方向存在多个明显切入点:除版权问题外,调查人员可能还涉嫌追查资金来源不明、运营者背景或技术手段等问题。
2023年,芬兰博主Janni Patokallio在一篇博文中汇总了多项线索与研究成果。据此推测,Archive.today通过IP地址不断变换的僵尸网络规避反抓取措施。另有迹象表明其运营者可能位于俄罗斯。而2024年另一项私人调查得出截然不同的结论,指认纽约某软件开发者为涉嫌运营者。该调查指出,追踪至东欧的线索实为虚假诱饵。

我们需要保护数据。联邦调查局却在试图销毁数据。
我们绝不能容忍联邦调查局在此为邪恶效力。我认为数据权应当成为一项基本人权。这里所指的是知识本身,而非针对单个个体的数据(例如“人肉搜索”之类的垃圾行径——我强调的是知识)。
知识本身应当成为人权。我理解现行法律极度偏袒榨取人类血汗的巨头企业,但法律同样需要变革。(请注意,我并非反商业本身——只是认为法律不应沦为压制人权的工具,包括随时获取知识与信息的权利。)
维基百科尚可接受,但它遗漏了海量内容,且遗憾地仅呈现单一视角——许多事物需要解释才能理解。当我研读陌生领域时,总试图从基础概念入手。某些维基条目复杂到令人瞠目:即便凝视数分钟反复阅读,仍对内容毫无头绪。这也是维基百科的症结所在——由于撰稿者背景迥异,有时极难理解其真正意图。
> 我们绝不能容忍FBI在此为邪恶效力
从历史角度看,这甚至算不上FBI犯下的百大恶行之一。
> 从历史角度看,这甚至算不上FBI犯下的百大恶行之一。
或许如此,但我们无法改变过去:我们只能对抗当下正在发生的事,以争取更美好的未来。
这恐怕有点“弃婴连同洗澡水一起倒掉”的意味。该机构几乎从未带来净收益——时而监视“政治异见者”(如马丁·路德·金),时而办案失误酿成国耻(如鲁比岭事件)。
一个拥有秘密国内情报机构的体系,永远不可能长期合乎道德地运作,尤其当其享有豁免权时。这种体系对妄想狂的蠢货极具吸引力,却对具有强烈社区意识或道德感的人毫无吸引力。
> 该机构几乎从未带来净收益
这很难衡量吧。在数百万美国人眼中——他们或曾是严重犯罪的受害者,或与受害者有亲友关系——FBI往往发挥了积极作用,且犯罪者常因畏惧被捕而受到震慑。
但你却将其与该机构引发的种种恶果相提并论——尽管恶果确实存在,但为何断言恶果必然压倒功绩?
> 该机构几乎从未带来净收益
联邦调查局的反腐败工作具有重要价值且不可或缺。
我认为这正是原论点“净收益为负”的依据。即假设大量工作虽有益且必要,但更多恶劣且过度的行为最终可能导致净负面影响。
就像本届政府正在做的事,看看汤姆·霍曼就知道了。
或是特朗普加密货币骗局与洗钱计划。或是公然内幕交易。或是卡塔尔“馈赠”的4亿美元专机。今年简直是诈骗案接连不断。
你真觉得它从未产生过净收益?
你当过执法人员吗?任何职位都行?
这话真可笑。
你和美国执法部门打过交道吗?他们简直是笑话。认为他们能产生积极影响,在我看来才是笑话。
那你干脆搬去执法机构完全不存在的地方?那地方肯定像天堂吧!
我正生活在这样的地方——唯一存在的执法就是榨取穷人钱财来维持地方法院和警察系统。在某条路上拦下每辆车,试图以八小时前吸食大麻为由指控酒驾,这并不能保障我的安全,只会让我上班迟到,还被用来为增加税收找借口,继续资助这场虚伪的禁毒战争。
因为情报机构和毒枭会凭借更多武力和资金接管一切。
警察(当他们不忙着争管辖权时)确实觉得这有帮助,但这不代表对民众有益——尤其当它(及警察体系)被当作国内影响力操作的工具,以商业和地主利益为名将某些人排挤出局时。
好吧。这事虽糟,但连FBI当前恶行榜单前五十都排不上…
别列五十项,列十项就行,我倒要看看。
这很可能让我的个人处境比其他人更糟。
数据删除是多数人一生中最永久的行为。亚历山大图书馆的焚毁与巴格达的毁灭,在历史长河中投下漫长的阴影。
但此后我们不得不假装一切发明都源自西欧。
但一旦FBI拥有抹除知识的权力,其余百般恶行都将归零。
即便在恶行排行榜上位列第101或第275,本质恶行依然存在。
好吧,在今天我关心的五件事里排第275位,意味着我会嘀咕“嗯,挺有意思”然后继续过日子。
关键在于作恶的倾向性,而非恶行的相对排名。
我们不该因为某些小恶行不如其他放任的恶行严重,就放任它们存在。
不,但这可能使其不值得关注——就像厨房台面上的坏鸡蛋,当房子着火时就无关紧要了。
若有人对屋内火情浑然不觉,柜台上的鸡蛋作为值得关注的事物,或许能促使他们环顾四周,发现这栋房屋根本不适宜居住。那些试图灭火的人(或只是在远处关注火情的人)可能会指出变质的鸡蛋,以此提醒屋内的人注意火情。
我认为你必须改变或放弃这个比喻才能阐明观点。这些关于变质鸡蛋和房屋火灾的陈述根本不成立,以至于让关于体制与渎职行为的合理论断显得荒谬。
> 这些关于腐烂鸡蛋和房屋火灾的陈述根本不成立,严重到让关于制度与渎职行为的合理指控显得荒谬。
诚然,但我不同意这个结论。当我试图将其映射回现实却发现不合逻辑时,这确实是对类比本身的批判。但若要使映射合理化而必须滥用类比,这并非我的问题——毕竟类比并非我所创。
然而在类比的语境中,若能设想出那种绝对荒谬的情境,其逻辑依然成立。
变质的鸡蛋与房屋火灾并非同类问题。政府机构实施两种恶行,更像是评判客厅的小火是否比媒体室稍大的火更严重——毕竟都是你家里的火。
所以呢?
这种表述暗示FBI历史上并非为邪恶效力,这让坚信FBI本质上是邪恶工具的人颇为恼火。
宪法规定版权制度旨在促进艺术与科学进步。一旦出现阻碍进步的情况,该制度即宣告失败。
许多权利持有者极力希望我们遗忘这一初衷。
当国会将版权保护期延长至十年以上时,这种情况便已发生。
我只希望人们使用archive.is时默认生成长链接而非短链接——若该网站崩溃,所有未修改设置而直接粘贴默认乱码链接的用户分享内容都将毁于一旦…构建这种具有破坏性行为的服务本身也是不可接受的。
在哪里能修改设置?我此前并不知晓此项功能。
点击顶部的“分享”按钮,然后选择“长链接”选项。
http://archive.today/2023.11.30-020758/https://www.theverge….
我同意。知识理应属于全人类。
但当大公司抓取整个互联网时,也不必对它们心怀怨恨。
主张废除(或至少大幅削减)版权制度,同时又对“只要有足够资金,大规模侵权就能神奇地合法化”的现象感到愤慨——这两者并不矛盾。
执法天平不公正地向富人和权贵倾斜,这与是否应当执法本身是两个独立的问题—— 若我们 必须 实施执法,至少应做到公平;若无法公平,至少不应 向既有权势者倾斜 “——这种立场完全合理,同时亦可坚持”但理想状态下,我们本就不该实施执法"的观点。
> 既主张废除(或至少大幅削减)版权制度,又痛恨巨额资金能让大规模侵权行为神奇地合法化——这两者并不矛盾。
为何不能为那少数幸运儿庆幸?他们能肆意侵权却毫发无损。我知道你希望人人都能如此,但现实尚未达到那一步。
“为何不能欣然接受”——当个人和小公司因版权侵权被起诉至破产,而大型AI公司却能肆意抓取全民数据用于训练,在生成基于这些数据的代码、图像、文本和音乐时完全无视版权,进而取代对原创作品的需求?你问的就是这个吗?
因为我们希望权势者感受到恶法带来的压力而非获得特权通道,迫使他们运用权力为所有人改变现状,而非只为自身谋利。
多数情况下富人反而会为自己制定“后门”规则。富人花3万美元购买注册机枪并缴纳200美元NFA印花税就能完全合法,而穷人用0.5美元塑料3D打印同类装置却要坐15年牢。
事情没这么简单。
有些版权侵犯在道德上无可厚非,比如盗版老电影自用。
而另一些则存在道德问题,比如盗版老电影牟利。
当大公司侵犯版权时,其性质往往更接近后者。
他或许为他们感到高兴,却也因法治缺失而悲伤。
坦白说这根本是贿赂当道。只要冠上“游说”之名,无人会侧目。
训练人工智能的实体并非反版权或反知识产权。倘若我窃取其AI模型,他们必将诉我至倾家荡产且胜券在握。况且即便你反版权,恐怕也不愿自己的内容被AI训练者抓取——这些机器人极其凶猛,几乎堪称真正的DDoS攻击。
AI并非对版权的攻击,而是企图用更糟糕的东西取而代之。
你用“尚未实现”这个说法想得太简单了。关键在于,如今大公司们正在肆无忌惮地侵犯版权,几年后它们就会签署一堆和解协议,然后抽身而退。
我当然希望版权制度能逐渐失去意义,但即便以这个目标为前提,我们也该预见到大型企业会是 最后一批 停止尊重版权的群体。
虽然人们确实不满AI公司未经补偿就利用艺术家创作牟利,但我知道很多人更反感的是近期AI公司抓取网络内容的方式。人们使用Anubis等工具的原因在于:与谷歌长期提供网站存档服务(这其实是项优质服务)不同, 这些新公司却无视robots.txt协议,爬取频率失控(我们遭遇其僵尸网络每分钟数千次访问——通常来自百度/腾讯,但美国IP也大量存在),反复抓取相同资源,无视缓存提示头信息,更在爬取搜索结果时愚蠢地抓取数千种页面变体,完全没意识到这些内容本质上大同小异… 当你封禁它们时,它们又切换到住宅IP段。这简直是恶意行为。
> AI公司获利
真是如此吗?
若归结为AI公司通过未付费生产的内容(订阅等)牟利,那么它们确实是在剽窃他人心血。
归根结底,地球上任何人都能免费使用ChatGPT(及其他盈利型大型语言模型)解答任何疑问。
知识正以惊人速度在人类间共享。人人皆受益。
竟有人反对这种现象,实在令人费解。
收入不等于利润。
我从未如此表述。我清楚利润=收入-成本。
我指的是他们正从他人辛勤劳动中牟利——这是截然不同的概念。
牟利 ≠ 利润
“转卖亏本就偷也无妨”
我从未写过类似言论。
你是否在工作中使用谷歌搜索?那么你正在享受他人辛勤劳动的成果!
区别在于:当你在谷歌搜索时——至少在AI摘要出现之前——最终会跳转到原始网站。
此外谷歌尊重robots.txt协议。所有被谷歌收录的网站都主动选择了加入索引。
这说法并不完全准确。谷歌可能隐藏也可能不隐藏你的页面索引,但无论如何都会抓取内容。他们还会展示页面摘要信息(著名的“什么是抓取”梗就展示了维基百科摘要)。最终你甚至无需访问页面——仅浏览结果描述就能获得答案。
这些公司的员工正领着薪水从事你所反对的行为。
虽然相关企业未必都从中获利,但部分确实如此,而其员工(几乎全部)无疑都从中受益。
版权制度旨在“促进科学与实用艺术的进步”。
凡能促进此目标者皆应合法,凡阻碍此进步者皆应禁止。
我不在乎他们抓取我的网站。
但我 非常在意 ——当他们完全可以直接git clone时,竟动用近200万个不同IP地址逐个提取4.2万次提交记录…
但愿企业能直接付费委托少数技术可靠的公司进行抓取。或许可以双重付费以确保质量把关,但至少该结束这种数十家(甚至更多?)公司同时疯狂抓取网络资源的局面了。
我的理想方案是美国政府(及其他政府)应一举解决法律合规与补偿问题:将作品提交至联邦模型数据集作为获得版权保护的必要条件。以象征性费用向任何需求方授权该数据集(甚至可对定制模型收费),并承诺对基于授权模型衍生作品的版权诉讼提供赔偿保障。从许可费中向版权所有者支付限时版税。各方皆赢,我们就能终结数十亿机器人每日数十亿次爬取网站的乱象。
专门用于批量生成平庸代码的大型语言模型本就存在,何必支付任何费用?
多数愤怒并非针对抓取行为本身,而是针对其破坏性的实施手段。比如抓取那些已提供便捷内容下载图片的网站。
感觉现在我们只是在重新定义规则,让不喜欢的人出局,喜欢的人留下来。内容创作者难道没有权利决定作品的使用方式吗?
我有权保护自己的版权作品,也有权为自己运营的服务器设定访问规则并强制执行,从而决定谁能访问这些内容。
这种错误类比竟无人指出,实在令人惊讶。网站存档本质上保留了署名权,而抓取训练数据则不然。
是吗?起初我觉得荒谬,但越想越觉得…两者都是企业抓取数十亿网页的情形。我们认同archive.is的初衷,但除非是慈善机构,否则这种比较完全合理。
archive.is不就是慈善机构吗?至少他们接受捐赠,虽然背后实体模糊不清,但网站没有广告且无付费产品。
他们他妈的绝对有广告。你试过用未启用广告拦截的浏览器配置文件误点链接吗?
我很少在未启用内容拦截的情况下浏览网页(通常是隐私导向的拦截器…这已足够应对多数广告)。但我保留了一个完全未定制的浏览器配置文件,用于验证我发现/需要报告的故障是否与扩展程序相关。
偶尔我会在那套原生配置里误点新闻网站链接(或其存档页面)。若不采取防护措施,出现的广告数量实在令人震惊。
我刚在该配置里确认:archive.is确实会在存档网站周围投放广告。
所以OpenAI或
<当日AI抓取工具>只要给生成的答案加个署名,一切就没问题了?这样才算接近没问题。
大公司不是人。
无论大小企业都不可能独立行动。真正决策的永远是个人。你回答的问题——即便你意识不到——本质在于:少数人能否通过协同行动仍保有自身权利?
它们在美国法律下具有法人资格。
若你试图通过美国法律来判断谁是人、谁不是人,那你就彻底迷失了方向。
仅在极少数特定且狭窄的范畴内如此。根据美国法律,它们通常不被视为人。它们是法律虚构体,被赋予了人类享有的部分权利。
而这部分权利正不断扩张。
若将此逻辑推向极致,许多问题便迎刃而解。亚马逊,抱歉了——你们的工作环境致五人丧生。你们的营业执照将入狱服刑40年,等你们出狱时,带着杀人记录想和其它公司签约?祝你好运。
美国法律仅适用于美国境内。况且涉事公司似乎注册于加拿大,不在FBI管辖范围内。
美国法律的适用范围因具体法律而异:既有仅适用于美国境外的法律[0],也有同时适用于境内外的情况。
[0] 例如联邦酷刑法案《美国法典》第18编第2340A(a)条规定:“任何人在美国境外实施或企图实施酷刑者,应处本编规定的罚金或不超过20年监禁,或两者并处;若本款禁止的行为导致他人死亡,则处以死刑或有期徒刑(可判终身监禁)。” ”
https://www.law.cornell.edu/uscode/text/18/2340A
这不过是痴人说梦。只要特朗普愿意伸手抓人,美国法律就适用于全世界。问问委内瑞拉渔民就知道了。
这根本不算美国法律,纯粹是法外谋杀。
金·道特康姆也是如此。拜登仍受大型媒体指使追捕了他。
关键这不只是拜登的问题。他的引渡程序横跨了 三届 美国总统任期。你不如把特朗普和奥巴马也算进去。
但美国法律连世界法都算不上,更遑论定义现实。
有必要吗?特朗普凭空指控就下令暗杀船上人员。
你打算如何应对?
两者不可混为一谈。企业并非人类(管它“公民联合案”怎么说)。企业天生不具备权利。
我知道这观点很激进,但我们中有些人认为法律在权利和特权方面应区别对待大型企业和个人。
我只对他们向知识产权敲诈者支付封口费的行为感到愤怒。
问题不在于他们抓取互联网数据,而在于他们既抓取数据牟利,又利用版权制度打击效仿者。
这种论调简直虚伪至极。为人类自由共享而收集信息,与打着“人工智能”旗号收集信息喂养算法、借此敛财并挤占他人工作机会的行为,本质存在天壤之别。
地球上任何人都能免费使用ChatGPT(及其他营利性大型语言模型)解答任何疑问。
这才是真正的知识社会主义。
我们(所有人)并不拥有ChatGPT;我们(所有人)也未分享其利润——这绝非社会主义的本质。
这种观点有误——正如开源代码向所有人开放,但并不意味着你可以随意转售或重新包装牟利。
信息可以向所有人开放,同时我们也能确保他人无法像AI公司那样将其转售或包装牟利。
开源代码 可以 用于盈利销售。
https://www.gnu.org/philosophy/selling.en.html
只要他们奉行“版权只属于我而非他人”的制度,当然可以。
这和前政府勾结亚马逊、苹果、谷歌将Parler从互联网上抹杀的行为同样邪恶。
自作自受。
对于那些积极呼吁剥夺其不喜欢的人群言论自由的个人和团体,我不再支持其言论自由。
事件发生时我读过HN上的讨论。我不会忘记。
> FBI正在试图销毁数据。
为了你。我敢说只要数据只被他们掌控,他们才最爱数据。
> 我认为数据权应当成为基本人权。此处所指主要是知识权,而非针对单个个体的数据权。
您认为我们该如何筹措资金来开展调查、研究并生成此类数据的艰巨工作?
请谨记:事实本身不受版权保护,因此无法通过版权进行限制。但对事实的创造性表达则可能受到版权约束。
> 维基百科尚可参考,但遗漏大量内容,且遗憾的是它仅呈现单一视角——许多事物需要解释才能理解。
据我所知,他们已将archive.is列入黑名单;该平台掌权者(就我所见)认定使用该网站证明“某网站在某日期发表X声明”的人才是坏人。当然,他们仍广泛引用archive.org的来源,可见反对的实质并非存档页面内容。
大量论据最终可追溯至伪装拙劣的宣传材料(例如:某问题普遍性的论断竟引用了相关产品供应商的网站作为佐证),或是仅在评论中轻描淡写提及客观(但未经证实)主张的观点文章。
> 他们将archive.is列入黑名单
此处所指为何?维基百科积极鼓励用户在引用中使用archive.is链接:
https://en.wikipedia.org/wiki/Help:Archiving_a_source#Archiv…
我上次查证时确实如此,不过可能已过去很久(用WikiBlame工具难以追溯具体变更)。
那是7年前的事了。该站点确实在2014年被列入黑名单,但2016年已恢复。
2016年已是九年前的事,但感谢提醒。
关键区别在于:我们清楚archive.org的运营方,却无从知晓archive.is的幕后者。私人用途尚可接受,但维基百科这类平台绝不可容忍。
这要求并不苛刻。
有档案馆.is篡改信息的实例吗?比起“你们是谁”,我更关注“你们做了什么”。
我从未声称存在实例。但“你们是谁”至关重要——即便你不在意。至少当运营方身份明确时,我们能评估可信度和潜在偏见,因为偏见始终存在。当身份不明时,你无从知晓该考量何种偏见。这既不可信也不可靠。而当网站采用闭源模式,你既不清楚其运营方式,也不知晓运营者身份时,同样无法判断“你们的行为”。
当你不知晓archive.is的运营者时,也永远无法确认其是否已转售给他人 (除非交易双方公开声明)。
这种可能性令我深感忧虑。archive.is在诸多方面更接近真实历史。若其数据开始遭篡改或偏颇,我们将无从知晓原始内容的真实性。
互联网永久记录竟可能取决于某个服务器机柜后方陌生人的道德操守,这种想法令人极度不安。
如今.gov网站频繁出现这种情况,令人极度不安。
知晓archive.is当前所有者并无助益;我们需要更多完整、独立的互联网镜像站点,以便相互校验。
Archive.is并非原样存档网页。
当archive.is上的信息开始损坏时,这些链接可能被调整或删除。
谁来发现问题?何时发现?如何发现?
维基是否只允许用户为来源所有者身份明确的资源投票?
“wiki”?
我们也知道archive.org曾删除某些“重要人物”不喜的页面。
我从未得出这个结论,但这实际上允许匿名者在必要时篡改历史记录/信息。以俄罗斯为例,这将成为操纵叙事的强大工具——这种叙事操控在当地已是文化常态。若真由他们操控,这招既精妙又危险。
此类操作绝非俄罗斯独有。
完全正确。俄罗斯只是我脑海里浮现的首个例子。
这恰恰可能与网站所有者的所在地有关
https://gyrovague.com/2023/08/05/archive-today-on-the-trail-…
且不论该服务存在的首要原因之一,正是企业与政府机构早已滥用其篡改历史的能力。
若此问题确属隐忧,解决之道在于建立多个公开可用的独立存档服务。Archivebro从未试图垄断存档业务——唯有联邦调查局在这么做。
俄罗斯也不是所有人都在联邦安全局领薪水。只要有可信信息表明某人或其服务器位于俄罗斯,新闻媒体就会立即停止调查——因为若深究下去,就难以再用“可能与克里姆林宫有关联”的说法来抹黑对方。若你仅凭国籍暗示某人怀有恶意代表敌对外国政府行事,而未提供额外证据,这些记者就会指责你种族歧视并试图让你消失。
> 我们不知道archive.is由谁运营。
我一直认为它是以色列政府官方授权的,用于某些未明(但几乎肯定不怀好意)的目的。
不确定你的推测是否基于顶级域名,但
.is代表冰岛而非以色列(以色列是.il)。感谢各位指正。我感觉自己曾多次谷歌过这个,却转眼就忘了。这次或许能记住。
.is是冰岛,不是以色列(以色列是.il)。
为什么是以色列?从顶级域名判断?IS是冰岛。以色列应该是IL。
你在哪查的?虽然两者都没在WP:RSP列出,但我知道很多网站一旦下线就会被替换成web.archive.org的链接。
听说过档案馆里涉及高层的敏感材料消失的事。
也听说过甲骨文潜在数据泄露事件(主要影响客户)从档案馆被移除的事。这主要是因为他们通常会配合删除请求,从道德角度看这可以理解。但他们至少会尝试说明删除原因吗?还是说这根本不可行?
Archive.org会 追溯性 遵守robots.txt规则。因此任何人都可以通过在robots.txt文件中添加链接来删除自己的内容。
此说法已失效。他们于2017年修改政策不再遵循robots.txt。我依稀记得后期仍曾遵守该协议,但现已找不到相关信息且记忆可能有误。目前确实不再执行。
这是否意味着archive.org适用于所有网站?
我主要使用archive.is来存档那些无法正常存档的网站(通常会弹出提示说明该网站无法存档之类的信息)。
archive.is在强制获取存档方面表现相当出色——即使HTML无法正常抓取,截图功能也能完美替代。不过archive.is似乎无法处理GIF/视频文件。
> 是否意味着archive.org能存档所有网站?
他们停止遵守robots.txt规则后,开始尊重排除请求。我不清楚他们对新排除请求的政策。
哦,这个我不知道。
> 据我上次查证,archive.is已被列入黑名单;该站管理层(据我所知)认定使用该网站证明“某网站在某日期发表过X内容”的行为属于违规操作。
或者他们担心该网站绕过付费墙的功能(这可能是多数用户使用它的目的),以及针对archive.today的版权申诉可能导致其被关闭,从而破坏大量链接。
我一直在想国会图书馆应该收购Archive.org
它应当成为难以摧毁的实体组成部分,确保长期存续。
不过这或许取决于文化氛围——我认为人们对图书馆的尊重正在急剧消退。
过去九个月的教训是:长期运作的政府机构比我们想象中更容易被摧毁。而想象Archive.org落入美国现政府这类政权掌控的场景令人毛骨悚然——他们删除篡改数据时绝不会有丝毫顾忌。
另一派同样如此。我们至今不知谁才是真正的总统,而所有人都在假装拜登并非痴呆症患者。
完全同意。他们只是手段更隐蔽罢了。
我宁愿不依赖一个公开宣称要操控民众认知真相的政府来掌控这些数据。
> 我们绝不能让FBI在此为邪恶效力。
我们无权指示FBI行事,这是对权力运作机制的致命误解。你可以要求会见FBI主管,但恐怕徒劳无功。你只能在私营政党推出的两位候选人中选择——而FBI正是为这些政党效力的,但这同样无济于事。
> 知识本身应当成为一项基本人权。
人权由立法创造。除非你掌控着立法者(或者说,掌控着众多立法者),否则你无法参与其中。然而,那些掌控(并分配)知识本身的人,却能参与其中。
我们最好停止对比我们更强大的人该做什么指手画脚。这就像囚犯讨论监狱该做什么。你应当讨论 自己 该做什么。别把 要求 当成 行动 ,也别把和朋友街头散步当成社会运动(除非你们违反宵禁且准备好自卫)。
勇敢些。提出可能失败的计划。邀请他人协助,号召他们追随,告知集合地点。加入他人阵营协助其计划。别先 要求 ,再在对方拒绝时抱怨“当然不行”。联邦调查局不是你父亲,掌权者也并非为你代言。
恕我直言,此类言论空洞无物。行动方式取决于权力分配;而弱势群体行使权力需依靠集体力量——通过讨论与协同行动。任何人都能畅谈若自己当上世界独裁者会做什么。
“我认为数据权应当成为一项人权。”
标语虽有意思,但可能引发太多副作用。
若由我来设计,会将其浓缩为某种消极权利——这类权利通常副作用较少,即便如此我仍会极其谨慎。
你所守护的不过是机器中的几段数据。知识可植入其他载体,通过社交媒体阅读之外的行动获取。
依我之见,你真正想表达的是:“我理应自由地坐着浏览网页,确信他人行为得当,同时依靠外部劳动维持生物机能运转”。
阿西莫夫等无数思想家都强调过:被动接受他人观点与知识获取本质相悖。若不亲身实践,你获得的不过是他人叙事的记忆碎片。
如今美国仅4%人口从事狩猎。若要让民众真正生活而非屈从,你们这些办公室工蜂必须学会摆脱无助。去掌握种植马铃薯的知识吧。
你们不会这么做,因为你们根本不想获取知识。你们只想让世界用最少的付出馈赠知识与经验——典型的美国资本主义者。全球80亿人口可不会被3亿人的明目张胆欺诈所震撼。
我们曾尝试让知识在线上免费共享。资本家却蜂拥而至,将其吞噬后以“人工智能”之名转卖给我们。可惜当有人钻空子时,美好事物终难长存。
> 我们需要保护数据。…我认为数据权应当成为基本人权。
我并非在此为FBI辩护,但请想清楚:你是否有权保留被跟踪狂或黑客泄露的我的私密照片?毕竟archive.is向来以拒绝配合著称。
我不知道本案究竟涉及哪类情况——盗版内容?还是政府试图清除网络上的丑闻?但archive.is欢天喜地支持这三种“使用场景”的事实,或许值得你深思。
这确实是条微妙的界线,因为下架机制可能被滥用于我们不认同的目的。但在文明社会里,“哈哈,倒霉了,信息渴望自由”这种敷衍回应绝非明智之举。
他们特赦丝绸之路毒枭,却去追捕一个侵权大佬?若此人确系俄罗斯公民,这甚至不在他们的有效管辖范围内。难道没有更重要的俄罗斯犯罪案件需要调查吗?
我读到美国政府曾调查俄军绑架乌克兰儿童的案件,但据说缺乏足够资源[0]维持调查。
[0] https://www.npr.org/2025/03/19/nx-s1-5333328/trump-admin-cut…
> 他们特赦了丝绸之路毒枭,转而追捕一个侵犯版权的头目?
总统的特赦令在联邦调查局和执法部门中并不受欢迎。联邦调查局对付出大量精力起诉罪犯,却因总统出于政治原因推翻判决感到不满。
据我所见报道,他们正努力清除FBI内部可能对此不满的人员。另有报道称其招聘筛选问题要求应聘者承认2020年大选存在舞弊。
我认为这并非政治原因,更像是为大额捐款铺路。
这分明就是政治原因…
它让他人相信你同样愿意以金钱为代价宽恕他们,而说服他人正是政治的本质。
这既是政治手段,也是腐败行为。
这并非政治行为,纯粹是按价提供服务。这些赦免背后没有特定政治议程(即并非只赦免福音派信徒或反移民人士等特定群体),唯一标准就是付款。
> [1] 政治
> 政治(源自古希臘語πολιτικά (politiká) ‘城邦事務’)指涉及群體決策或個人間權力關係(如地位資源分配)的活動體系。
我实在不知该如何更直白地说明:贿赂本质上就是政治行为。
[1]: https://en.wikipedia.org/wiki/Politics
> 贿赂具有政治性
贿赂具有政治性。但在西方,它并不被视为政治的常规组成部分。(类似于罗马人用同一词汇指代伏击与叛国。叛国不被视为政治常态,而伏击对他们而言亦非战争常态。)
本质上你们都正确,因为何为政治本身就是政治问题。
词义会演变。古典拉丁语中“美德”原指“男子气概”,但只有刻板的蠢货才会坚持按此义使用。希腊语中“城邦”及其相关词汇的含义,与我们今日理解的截然不同。
没错,“政治”一词从“城邦事务”演变为“群体决策相关活动,或个体间权力关系(如地位资源分配)的总称”。
实际上 直到最近,“man”一词都指代人类,因此“manliness”(男子气概)本意即保持男子气概的状态,亦即保持人类特质。
他只是在阐述词源背景,实际引用的是当前语义。
为金钱出售赦免权 本质上是 极其 政治化的行为。这意味着你正与金钱利益集团站在同一阵营,这显然是特朗普主义政治的核心。即便抛开意识形态不谈,公开兜售赦免权向整个金钱利益集团传递的信号是:他站在他们这边——即便这些利益集团当下并不需要赦免。此举兼具实用性(赢得富人好感,使其为竞选及相关事业捐款助力)与意识形态意义(可追溯至新教改革时期的供给学派式教条宣称:富人理应掌权,因其富有,证毕)。
假设性赦免承诺出自特朗普竞选人身份时在自由党大会上的演讲。
具体政治意图是争取自由主义者的支持——他们倾向保守派,却因特朗普否定自由主义而对其颇有微词。
这堪称政治操作的极致。并非幕后交易,而是在政治大会上公开宣布。
> 他们不会只赦免某些特定群体,比如福音派信徒或反移民人士之类
特朗普赦免过哪些非支持者?
请你先定义“政治性”这个词。
> 看起来是出于大额捐款的考量。
更像是大额贿赂的考量。
在美国,这两者本质并无二致
有区别吗?
我猜楼主想表达这不是基于意识形态的考量。
原帖意思是说,这种特赦并非为了赢得选票或满足选民要求,比如赦免被定罪的警察、涉大麻犯罪者,或是在越战/内战后赦免逃兵等情况。
虽然金钱深度渗透政治且存在金融腐败,但偶尔也会发生没有直接经济利益的意识形态(政治)行为。
很难断定赦免丝绸之路创始人的动机究竟源于自由意志主义理念、加密货币社群压力,还是政党收受的资金捐赠——这些因素可能同时存在,但各自考量截然不同。
> 我猜楼主想表达的并非出于意识形态原因。
“政府存在是为了领导者的个人利益”(或更直白地说“作为领导者的我个人利益”,其概括性甚至更弱)本身就是一种意识形态。
这种理念虽不被公开宣扬,但真实意识形态中本就鲜有例外。
2019年,朱利安尼的助手训斥约翰·基拉库说,赦免事宜不能在他面前讨论,但费用是朱利安尼100万美元,特朗普100万美元。考虑到通货膨胀,我敢打赌现在赦免要价约300万美元。
你说的可是卡什·帕特尔掌管的FBI。这家伙不仅有首热门单曲和本叫《针对国王的阴谋》的书,还至今坚称2020年大选存在舞弊。
FBI只会执行特朗普的指令,仅此而已。
> 总统的赦免令不受联邦调查局和执法部门欢迎
既然他们不喜欢,我敢说总统很乐意开启竞价战。
> 总统的赦免令不受联邦调查局和执法部门欢迎。
这是未经证实的笼统说法。我们根本不知道FBI和执法部门内部对任何议题的赞成或反对比例。
出处?他们中还有人在职吗?
他们连我——这位版权侵权大佬——都盯上了。负责我的FBI档案甚至在案例研究里写道,FBI以为我赚了数百万美元,还有其他诸多谬误。
他们的优先事项极具政治性。
若您愿意分享或曾就此撰文,很想了解更多。联邦政府与个人的法律接触往往超现实。
https://prison.josh.mn
案例研究:https://ieeexplore.ieee.org/document/10628922/
感谢分享。今晚会仔细阅读这两篇。
欢迎随时分享想法。:)
> 这根本不在他们的有效管辖范围内
但这从来没阻止过美国…
目前这确实没能阻止美国联邦政府在国内行动。
这不该是国际刑警或联合国的职责吗?美国为何追踪外国儿童?
美国政府根本不在乎版权侵权,除非是大型企业因此受损,且侵权者是个体/小公司——而非那些吞噬所有版权内容、再通过算法吐出自己版本的巨型AI企业。
联邦调查确实只针对大鱼。
根本问题在于国会通过的知识产权法。一旦赋予执法机构这种权力,行业永远会施加巨大压力。
据我所知没有直接利润,所以不存在统治权。
特朗普赦免罗斯主要是为了争取自由意志党(大写L)的选票。赦免决定是在他参加自由意志党大会的演讲中宣布的。
并非出于任何意识形态原因。
他真正看重的并非自由意志党的选票,而是支持“释放罗斯”运动的加密货币资金洪流。
两者皆是。长期以来,自由党被视为从共和党吸走少量抗议票的政党,其成员(多为男性)既反对民主党过度监管和保姆式政府,也抵制共和党的反堕胎政策、毒品刑事化等立场。
几年前曾有组织性努力试图掌控自由党核心职位,将组织重心转向财产权与资本主义,弱化个人自由及宪法对政府权力的限制。此举实质上分裂了自由党,使其丧失了选举影响力。
诚然,自由意志党从未赢得过大量选票,但许多选举胜负往往取决于微弱差距。该党在2016年曾获得约3%的选票,但在随后的两届选举中流失了超过80%的支持率。
https://www.the-pechko-perspective.com/political-commentary/…
https://www.splcenter.org/resources/hatewatch/libertarian-pa…
https://en.wikipedia.org/wiki/List_of_United_States_Libertar…
这似乎更合理——美国有多少自由意志主义者?若你追求选票,肯定有规模更大的群体可争取
我们有几十人。但谁都无法达成共识。
自由意志主义者就像独立选民,只不过没人想争取我们
自由意志党在2016年获得了约450万票。争取其中部分选票,或劝阻他们投票,足以在势均力敌的选战中改变结果。更多背景请参阅我之前回复的其他答案。
我认为加密货币群体从未因不投票给特朗普而面临风险,因此不确定对他们而言有何益处。但自由意志主义群体确实面临风险。
作为自由意志主义选民,特朗普赦免罗斯是唯一令我真正犹豫的举动。说到底,当我投票给民主党候选人时,内心深感愧疚——因为我清楚[意识到] 我正亲手将罗斯送进牢房。投票后这份愧疚长期萦绕心头,直到特朗普胜选才稍得解脱。
我个人认为自由党为这枚甜甜圈出卖了灵魂。他们本可从特朗普那里获得远超赦免某个网络毒贩的利益。
网络毒贩倒不值得我关注,但他竟企图雇凶杀人!
听着,当杰夫·贝索斯和“割草机拉里”向特朗普索要FBI调查,并奉上纯金粪球之类的贿赂时,他们可是期待着回报的。
> 丝绸之路毒枭
得了吧。罗斯绝非圣人,他确实可能在某个时刻做出了极其黑暗的决定,但这绝非孤立事件。该案背后存在大量细节与微妙之处,包括执法部门的诸多滥用职权行为——若人们知晓全貌,恐怕会感到恶心甚至反胃。
>他似乎确实曾在某个时刻做出过极其黑暗的决定
太模糊了。能具体说明吗?
诱捕行动。FBI假扮用户诱使罗斯相信某些人必须除掉,主动提出代劳后将其逮捕,却因预见法庭反噬而撤销雇凶杀人指控,同时利用这些(未定罪)指控公开抹黑他并影响法官裁决,最终窃取了他的比特币。
两名探员因此入狱。这些探员早有欺诈和滥用职权的前科。
作为曾因实质性刑事版权侵权(后被捕入狱)遭FBI调查的当事人,我唯一的结论是:此类案件本应像众多版权纠纷案那样仅以民事诉讼处理。
根据我的亲身经历,FBI的行动优先级往往带有强烈政治动机。除非你干了极其恶劣的事,或是实施欺诈性诈骗,否则不会被重点关注。
若想了解报道内容与实际情况的差异,我在此分享了对自身案件及经历的评论:https://prison.josh.mn
FBI想提醒所有人:唯有美国巨头企业才能抓取整个互联网数据,且不得共享数据——他们用这些数据训练AI模型,再向用户收费提供使用“洗白”数据的聊天机器人。在他们眼中,任何其他尝试这么做的人都是罪犯,必须受到惩罚。
Archive干脆改名成AI初创公司,推出一款可疑地“过度训练”的“大语言模型”,恰好能精准吐出你查询的网站内容…侵权?不!过度训练!“修复即将到来™!”
补充说明:白宫同样使用archive.ph。
搜索“美国人消费空前活跃:零售额激增——较去年增长5%,远超通胀水平——创下历史最高消费纪录”[1]
“增长5%”的表述直接链接至archive.ph。
[1] https://www.whitehouse.gov/articles/2025/09/the-economy-is-b…
但白宫究竟有何理由以如此小气的方式剥夺路透社的流量?/s
我订阅了部分网站的服务,却仍坚持使用archive.is浏览——它提供更舒适的阅读体验。无需验证、没有烦人的弹窗恳求订阅愚蠢的电子报,简直是互联网时代的静态新闻纸。
我个人推测是archive.is向多数主流新闻机构购买了订阅账号(正规渠道或通过僵尸网络),并通过修改HTML代码使网站呈现未登录状态。不知他们是人工操作,还是通过类似以下方式实现:https://github.com/pirate/html-private-set-intersection
据我观察,这不过是装了付费墙绕过插件的无头浏览器
某些网站的情况显然更复杂,必须人工管理。例如今年我发现archive.is抓取了芬兰某些报纸的付费文章,其页面布局暴露了登录状态——尽管识别信息已被移除。
他们有时会连续数周/数月无法访问芬兰网站的付费内容。我刚尝试打开今日的hs.fi付费文章,结果无法访问,但一周前的付费文章似乎仍能以高级用户身份查看。
令人好奇的是他们竟有时间做这种事,不知其他小语种新闻网站是否也遭遇类似待遇。
我以前也用Lynx浏览器做同样的事,但现在太多网站已破解了这种方法。
装上广告拦截器加烦人过滤器也能解决
同感,我也常用HN论坛的链接,还曾捐款支持archive.is。真不希望这些服务消失。
还有比新闻订阅弹窗更烦人的吗?我宁愿看定向广告也不要这破玩意儿。
不行!我不要你们的新闻订阅!要不是现代社会非要邮箱地址不可,我压根不会注册邮箱。收到的邮件越少越好!
电子邮件正变成传真机那样:一种顽固不死的过时技术。
网站曾热衷弹窗广告,后来浏览器加强了拦截功能。但站长们非但不领情,反而把广告塞进页面内容里。广告拦截器和追踪拦截器的盛行,完全是网站运营者敌视用户行为的必然结果。
个人而言我不介意订阅新闻通讯的邀请,但Substack的做法过于激进。他们在我尚未读完文章时就弹出订阅提示(我怎么知道是否想订阅?),还刻意遮挡文章内容(明知我的阅读意图却故意干扰)。现在我看到这种弹窗就立即退出。绝不访问故意破坏用户体验的网站。
现实生活有时也让我有同样感受。在美国,我不断遭受邮件和广告的侵扰,全是些我从未表示过兴趣的东西。浪费时间,浪费纸张,浪费资源。
当生活中出现几件简单美好的事物让日子稍显轻松时,总有狂热的混蛋急不可待地想破坏这一切。
此处虽以本站为例,但类似情况每日上演。比如法国对“任何开始流行的事物征收新税”,或是谷歌通过强制要求所有应用开发者提供其认证来扼杀隐私权和F-Droid平台。
又或是欧洲国家对Anna档案库实施的DNS封锁…
https://archive.is/XdQRp
有趣的是通过这个链接,我发现整篇文章只有几段文字。而原始链接在手机上弹出第二条广告时就几乎遮住整个屏幕,我当即放弃阅读。过多广告造成糟糕的用户体验,根本无法正常阅读内容。
我初次访问该页面时也转用archive.is,这样就无需同意他们为个性化服务收集数据。
厨师之吻
多么巧合
传票援引以下法规作为授权依据: "(1) (A) 在调查下列任何案件时:(i)(I) 联邦医疗保健犯罪;或 (II) 涉及儿童性剥削或虐待的联邦犯罪,司法部长;或 (ii) 根据第871条或第879条规定的犯罪,或针对美国特勤局保护对象的威胁,且特勤局认定该威胁构成犯罪或对受保护对象的威胁具有紧迫性"
传票中列名的特工之一似乎曾在数年前处理过儿童剥削案件:
https://www.supremecourt.gov/DocketPDF/22/22-6039/245948/202…
这或许是个有趣的角度。
1. 在非公开域名上短暂发布儿童色情内容。
2. 存档页面并删除网站。
3. 向他人发送存档链接。
我可以证实(类似操作)正是传播儿童色情内容的常规手段。
我至今仍在处理约11岁时在Omegle上产生的内容在网络上传播的问题(NCMEC是极具价值的资源)。
存档网站常被恶意利用。
以下是archive.is上的真实案例:
https://archive.is/https://ezgif.com/maker/
我向NCMEC提交了 多次 投诉但未获处理。不过德国方面成功清除了相关存档。
该页面显示文字:
> 应'jugendschutz.net'机构要求,该页面当前不可用。
我记得站长曾在博客(或推特?)提及此事确有发生,但具体措辞已遗忘无法搜索。
更新:通过搜索“site:blog.archive.today abuse”找到相关记录:
https://blog.archive.today/post/117011183286/yesterday-i-did… (2015)
这似乎只需简单提交删除请求就能解决,而archive.is背后的团队几乎肯定会配合。99.999%的用户使用archive.is只是为了绕过新闻付费墙,仅此而已。坦白说,这才是FBI追查他们的真正原因。
个人经历:我几乎从不用存档网站绕过付费墙。仅当想观察主流新闻网站如何偶尔“无意间”说真话,又在接到通知后试图删除原始报道时才会使用。或许是个人偏见,但我认为这才是他们被追查的主因——这些网站让人们得以揭露虚伪与谎言。
有没有更简便的方法绕过复杂的Cookie选择?我不在乎它们装了183个追踪器。我真需要全选吗?这些对我重要吗?想必对它们很重要吧。难道不能直接设置“全部拒绝”,或至少保留“最低限度的状态管理”?
https://archive.ph/XdQRp
谢谢!
是否存在类似libgen数据集的archive.is站点完整备份?万一服务中断时能快速重建?
要是archive.is能像Anna's Archive那样通过种子分享存档就好了——这样抗风险能力会强得多。
毫无疑问的糟糕决策
我们正大肆赦免贿赂总统的欺诈者。
但archive.is…这个人们用来阅读了解世界的网站,却必须严惩其运营者。
美国政府并非铁板一块。我们无从知晓压力源自何处,也无法确定调查何时启动。
追踪资金流向
他们没给够贿赂,也没好好讨好那个裹着尿布的皇室粉红海星。美国司法体系奉行的是选择性特权/报复的偏袒原则,而非一贯的公平。他们完全不在乎国家情报总监是俄罗斯间谍,也不介意47号为受制裁的战争罪犯铺红地毯。
在这个时代,MAANG丧失诚信与价值观,竟将奉承贿赂当作业务开支,以此换取优待而非惩罚。
说得对。既然诚信平等的国家假象已彻底破灭,想靠关闭免费新闻网站获得公众支持?祝你好运。局势已失控,我们面临的危机远不止于此。
我认为这更应归咎于总统特赦权的滥用(任何总统都可能如此,不仅限现任)。
总统至多应作为额外上诉环节存在。(但司法体系中最好保持中立,毕竟三权分立才是正道)
这种事发生实在可悲,而且该网站显然很快就要消失了。我理解这个网站存在诸多伦理争议,但当我尝试用互联网档案馆的时光机保存某些专有软件的文档页面时,它根本无法真正保存内容。因此在知识库文章可能被改写或更新前保存特定内容,难度确实更高了。
应该有人创建类似archive.is的网站,通过大型语言模型(LLM)对保存页面进行要点提炼,并提取关键引文(虽受限于LLM的判断,但总比没有强)。法律才是它们最大的敌人。
不,没人该这么做。不明白为何有人会信任这些八卦垃圾机器人,毕竟这需要额外工作量。当某个词语猜测机器人无法停止编造内容时,仍信任它简直勇敢。不妨问问它关于《史密斯-蒙德法案2012》的事。法案中反复强调“辨别”二字,自有其道理。
…请用Markdown格式。
不明白FBI为何拖延至今,对我而言真相显而易见:https://drive.google.com/file/d/1M6PMQrehmeuRU_KDd_PTKsTtVNN…
我之前花时间读过那份文件,几乎可以肯定不是正确人选。至少除了基于姓名、原籍国和编程背景得出“他必定是目标人物”的结论外,该文件未提供任何实质证据。
意外发现他是美国人。希望他能找到避难所,但既没有强力知识产权法又不受美国引渡条约约束的地方实在寥寥无几。
昨天我才发现Verizon家庭网络会屏蔽archive.is。将路由器DNS从默认设置改为openDNS后问题就解决了,看来他们只是象征性地做了些屏蔽努力。
这可能是Cloudflare DNS的特定问题,archive.today与他们之间长期存在关于某些DNS细节的争议。https://webapps.stackexchange.com/questions/135222/why-does-…
政府能在暗网摧毁庞大犯罪网络,却查不出明网网站所有者?
既然提到暗网。政府已对Tor进行深入研究,很可能掌握Tor浏览器的零日漏洞,并运营着大量Tor中继节点。只要投入足够时间和精力,国家行为体完全有能力识别Tor用户。
但除非你是政府重点监控对象,Tor能提供良好保护。
> 除非你是政府重点监控对象,Tor能提供良好保护。
你凭什么这么断言?我理解理论依据,但你有证据吗?做过测试或看过相关研究吗?
当人们可能因此受害时,我不敢贸然给出建议。
> 你有证据吗
当然不可能100%证明Tor能保护隐私。
但证据的缺失本身就是证据。虽然有政府机构能识别Tor用户的案例(如毒品网站运营者),但从未有个人或公司成功破译Tor匿名性的报道。
Tor是由美国海军创建的。
所以呢?
这只是个有趣的冷知识,对各种立场的人都适用。
政府能利用Firefox漏洞,更多内容请关注11点新闻。
那位所有者没那么简单——记得维基百科讨论中有人指控他(?)利用僵尸网络或代理网络向条目添加archive.is镜像链接:https://en.wikipedia.org/wiki/Wikipedia:Requests_for_comment…
他们有能力且必然会这么做。申请信息传票是该流程中的关键步骤。
若WHOIS记录造假,他们将开始追查支付信息。
谁说他们做不到?
2023年相关HN讨论:https://news.ycombinator.com/item?id=37009598
“让数据可访问并予以保存” -> FBI
“用受版权保护的数据训练LLM并出售产品” -> NVIDIA赚取数十亿
蠢问题:为什么新闻网站这么难保持用户登录状态?比如我能整整一年不被Gmail强制退出,但新闻网站几天就会把我踢出去。
我订阅了新闻网站,却仍使用archive.is这类服务,因为它比付费体验更快。
从未知道archive.is是由“蒙面人”运营的
看来
archive.is目前使用reCaptcha验证码。谷歌或许能据此查出运营者身份并通报FBI(即便注册数据无迹可循,也能通过开发者访问记录结合跨站追踪数据锁定)。Cloudflare同样存在类似追踪机制,其跨站追踪数据与谷歌如出一辙。
教训:那些你向其出卖所有访客数据的第三方技术监控公司,同样可能侵犯你的权益。
巧合的是,正是因为他们采用了谷歌验证码(还强制要求启用javascript),我才停止使用archive.today。我根本不希望这些实体在我的浏览器或电脑上执行任何神秘代码。
协助谷歌收集我的阅读习惯记录同样令人反感。
尽管在此地反常地不受欢迎,但亚沙·莱文[0]的论点有充分依据:整个互联网的存在本质就是为监控与内容控制而设计,这种设计深入到芯片层面,并通过法律及更隐蔽的协议强制执行。
[0] https://www.amazon.com/Surveillance-Valley-Military-History-…
这种观点之所以不受欢迎,恰恰在于它在技术人员最在意的细节层面存在谬误。
从宏观角度看,互联网确实是作为监控与控制工具而诞生的。但这并非最初设计时就内置了这些功能。在TCP/IP协议中,你找不到任何可以指认的监控模块或政府控制模块。“深入到芯片层面”的说法纯属谬误。诚然,互联网确实为这些行为提供了可能,但所有通信技术皆然——甚至人类社交的基本概念亦是如此[0]。
实际上,若美国真想将互联网变成监控工具,那他们简直糟糕透顶。唯一意识到需要审查互联网以维持文化/社会霸权的国家是中国,因此他们很早就开始实施网络审查。当美国意识到需要这种控制力度时,只能将脏活外包给创意产业和广告公司。
[0] 大多数神经典型人群未能意识到这一点。
技术人员总幻想自己正在为人类构筑光明未来。若告诉他们建造的是高科技集中营,恐怕不会受欢迎。
“当一个人的薪水取决于他对某事的不理解时,要让他理解那件事就很难了。”
-厄普顿·辛克莱
这是在浪费纳税人的钱。
这可能与版权无关。我通常避开这类镜像站点,因为它们简直是水坑攻击的绝佳温床。传统水坑攻击的难点在于必须通过黑客手段或渗透控制目标站点。但试想:若你能成为全球热门网站的中间人,人们自愿在互联网上各处(包括高价值受众群体如HN)发布指向你站点的链接。你便能自由选择性地向特定IP区块的读者注入恶意软件,且因多数用户不会接触到恶意代码而极大降低暴露风险。其应用场景无穷无尽——政府间谍活动、企业间谍活动、活动人士、政治对手皆可利用。
需要澄清的是,我没有理由认为这些网站存在恶意行为,但若黑客群体未曾试图渗透此领域,我反而会感到惊讶。
当然,你绝不该轻信任何随机出现的镜像站点(事实上几乎都不该信任),但archive.is在我看来已建立起相当可靠的信誉。虽然未来可能变质,但我不认为我们应该现在就扼杀它,仅仅因为担心它将来可能变质。
鉴于FBI的介入,以及当前疯狂的知识产权保护敲诈行为,我认为这极有可能是版权问题。我认为强大利益集团对版权的关注远超其他事务。
或许如此,但传票并未说明调查缘由,仅要求提供信息。
FBI可能因archive.today调查他们,也可能因那个疑似僵尸网络调查他们,更可能因现任总统某位亿万富翁媒体大亨盟友对收入损失感到愤怒而调查他们。据我所知,具体原因尚未公开。
即便如此,我们仍应对此提出质疑并表达关切。
archive.today 团队必须立即准备好种子文件
我注意到 iamadamdev 付费墙绕过扩展程序也因 DMCA 请求被下架。
镜像 https://github.com/nikolqyy/bypass-paywalls-chrome
让我们开发并分享更多优质工具,确保贫困孩子也能获得学习机会。
信息、知识与教育不应仅属于有钱人。
开发仍在继续,您提供的链接只是旧镜像:
https://gitflic.ru/project/magnolia1234/bypass-paywalls-fire…
感谢提醒,维基百科有更详尽的信息及相关资源链接:
https://en.wikipedia.org/wiki/Bypass_Paywalls_Clean
另请参阅:
https://en.wikipedia.org/wiki/12ft#Alternatives
新闻聚合网站《德拉吉报告》近期开始使用archive.is链接跳转文章,此举可能激怒了部分出版商。
若该网站被关闭,我将痛心疾首。我虽订阅pinboard.in用于个人网站书签管理,但即便如此也无法100%保证成功缓存页面副本。
若需跳过弹窗,请访问目标链接:https://archive.ph/FEcEi
我怀疑这与版权法无关。确信这完全是某些内容需要被记忆封存,以及存档服务商未能遵守规范所致。
当所有主服务器IP被封锁时,Archive.today会启用Tor出口节点,因此我认为此说法别有用心。
有趣的是,这家新闻网站自身的设置竟是“广告商处理数据(含基于用户画像的个性化广告)——免费使用需同意”
讽刺的是archive.is自身竟部署了如此多的机器人防护措施…!
> 另有迹象表明运营者位于俄罗斯境内。
这早就是我的推测。
我此前不确定的是:这究竟是文化上崇尚文学与智慧的俄罗斯民众,为获取无力购买的文章而建站?
还是说这可能演变成更可疑的行径(比如向间谍数据库输送信息,或者只需一个漂亮的Chrome零日漏洞配合精准时机,就能攻破美国科技公司里员工阅读HN时使用的工程工作站)。
但真正困扰我的是,这些杂项“存档”站点被HN系统性利用——让美国科技公司员工绕过付费墙,为濒临倒闭的新闻机构提供内容。这种盗版行为似乎得到了运营HN的美国科技投资公司的默许。抛开法律层面,主观上这已越过道德底线,经济层面更是对弱势群体的打压。
我极少阅读这些网站的文章,但偶尔阅读时往往获益良多。我乐意为每篇文章支付一美元(或几美元)。但由于容易忘记续订,且阅读量不足以支撑订阅成本,购买订阅反而会造成大量资金浪费。
付费墙的问题在于所有媒体都要求订阅。若只想读单篇文章,谁愿意订阅美国报纸?
x402解决了这个问题。
X402并未解决问题,因为出版商根本不愿出售单篇文章。
他们“不愿”这么做,不代表这不是好方案。显然他们无法让我订阅整个网站,那为何不直接卖我单篇文章?多数服务最大的问题在于缺乏消费者“便捷性”——创作者无法真正获得报酬。这正是我目睹所有朋友重返盗版的原因——当内容消费平台曾提供便捷体验时固然美好。看看Steam吧,如今盗版多数游戏比以往更容易,但我的Steam游戏库却持续膨胀。我并非反对付费消费,而是反对糟糕的服务。
你的道德顾虑无可辩驳。
但互联网与印刷媒介本质不同——或许新闻业的根本性变革需要另辟营生之道(广告显然是选项之一)。
或者说,我们这个社会(因其 网络化特质 )根本不配再享有这些服务。
或许互联网本身就是症结所在。倘若它终究是个巨大的错误呢?
这叫激情。回报丰厚。是机器人无法企及的。包括碳基机器人。
> 2024年另一项私家调查得出不同结论。该调查指认纽约某软件开发者为涉嫌操盘者。据此调查,追踪至东欧的线索实为红鲱鱼。
能否提供该“私家调查”的具体线索?另一篇指向俄罗斯(或至少是俄罗斯人)的博客似乎颇具说服力:
https://gyrovague.com/2023/08/05/archive-today-on-the-trail-…
联邦调查局正锁定Archive.is——这个由僵尸网络驱动的存档服务已公开运营多年。技术与法律风险的交织着实耐人寻味。
他们很可能只是利用代理抓取数据,并未直接或明知故犯地使用僵尸网络提供的代理。
无论是否知情,他们仍是共犯。本质上就是网页缓存的接应司机。/s
等等,我们为什么要介意这事?
我们不介意。刚才只是讽刺。
FBI直接建个“美国防火墙”封掉不就行了?有什么问题?
趁现在还能做,把所有中文内容都存档起来——如果你觉得那边的人可能发布过值得你阅读的东西……
https://archive.ph/FEcEi
FBI想隐瞒什么却不公开?原因何在?
我们不能失去这个网站。在这个付费墙盛行的时代,没有它Hacker News就无法存在。
顺便说一句,他们的领导层名单都列在官网上
“臭名昭著”?顶多跟heise.de一样出名。这种说法很奇怪。许多人讨厌未来撒谎时被过去的事实反驳。这次联邦攻击的动机正是如此。
“谁掌控过去,谁就掌控未来;谁掌控现在,谁就掌控过去”
我刚贴了404文章的节选,但决定直接链接原文。
深有同感。这个标题纯属多余的评论性措辞。
你到底为什么被点踩了?
等等,archive.is是个不该访问的网站吗?
用FBI的行动来判定网站“好坏”纯属愚蠢。
根据该网站公布的传票,FBI正试图揭露热门存档网站archive.today的幕后所有者。该网站常被用于绕过网络付费墙,并避免将流量导向网页内容的原始发布者。FBI传票称此举属于刑事调查的一部分,但未透露具体调查何种涉嫌犯罪行为。Archive.today还通过多个镜像站点广为人知,包括archive.is和archive.ph。
该传票由archive.today于10月30日在X平台公布,由FBI发给加拿大知名域名注册商Tucows。传票要求Tucows向FBI提供“archive.today背后客户的姓名、服务地址、账单地址”等信息。
传票声明:“本传票所涉信息与FBI正在进行的联邦刑事调查相关。” “贵公司必须提供上述信息。请无限期保密本传票存在,任何披露行为均可能干扰正在进行的调查及执法行动。”
传票还要求提供:• 本地及长途电话连接记录(包括:呼入呼出通话、一键通话、短信/彩信连接记录);• 支付方式及来源(含信用卡或银行账户号码);• 网络连接会话时间及持续时长记录; 电话或设备编号(含IMEI、IMSI、UFMI及ESN)及/或其他用于识别客户/用户的号码(含临时分配的网络地址,包括IP地址);所用服务类型(如对讲、短信、三方通话、电子邮件、云计算、游戏服务等)"
-snip-
阅读更多:https://www.404media.co/fbi-tries-to-unmask-owner-of-infamou…
> 谨此要求您无限期保密本传票的存在,任何披露行为均可能妨碍正在进行的调查及执法行动。
这究竟只是请求吗?即接收方_并非_必须避免披露?
另——真不敢相信Tucows居然还在运营!
整件事不就是个请求吗?除非通过加拿大法律渠道,FBI在加拿大根本没有执法权吧?要是收到外国政府的传票,我直接当厕纸用。
若Tucows在美国运营,这份“请求”怕是要变成禁言令之类的强制措施了。
直到十年后你赴美参加婚礼之类活动,完全忘记此事时才被逮捕
他们可能没法强制要求。但若你披露信息时存有干扰意图,他们或许能以妨碍调查罪起诉你。添加这个声明至少能证明你清楚自己可能造成干扰——我不是律师。
Tucows是加拿大公司,FBI的“请求”请另寻他处。
身为加拿大人,我真心希望Tucows能给FBI发份特别刻薄的回复。加拿大绝不该与任何美国当局合作!
> 加拿大绝不该与任何美国当局合作!
跨境合作是好事。我们的机构常联合行动,让那些自以为受辱而胆大妄为的罪犯付出代价。这种合作是双向的。
作为一名曾遭遇未成年时期(约11岁)在Omegle上被拍摄的影像在网络传播的当事人,我深知存档者在维持非法内容“存续”方面扮演的角色往往未被充分认知。值得庆幸的是,互联网档案馆已建立成熟的流程来清除包含非法内容的页面。
我们无从知晓调查的具体目的,一切皆属猜测。并非所有调查都是坏事。
以下是archive.is上的案例。我曾多次向美国国家失踪与受虐儿童中心投诉未果,但德国方面成功清除了相关存档。
https://archive.is/https://ezgif.com/maker/
该页面显示:
> 应'jugendschutz.net'机构要求,该页面现已不可用。
该页面曾存有大量未成年人图像。其被清除实属幸事。
2025年8月12日 – 加拿大男子因企图在线诱骗未成年人及持有儿童色情制品被判188个月监禁[1]
2024年8月21日 – 被引渡至美国的加拿大公民承认制作儿童性虐待材料及引诱未成年人罪行
2024年12月20日 – 被引渡加拿大公民因制作儿童性虐待材料及引诱未成年人被判终身监禁[3]
[1] https://www.justice.gov/usao-ndny/pr/canadian-man-sentenced-…
[2] https://www.justice.gov/usao-mdfl/pr/canadian-national-extra…
[3] https://www.justice.gov/usao-mdfl/pr/extradited-canadian-nat…
> 跨境合作是好事
依我之见,只有当它确实有益时才算好事。它同样可能带来诸多弊端。例如,若俄罗斯实施跨境合作,爱德华·斯诺登恐怕早已被处决。
科里·多克托罗将此类行径命名为:
“对商业模式的重罪藐视”。
原来,这个术语正是我们用户Saurik首创的!
https://pluralistic.net/2022/10/23/how-to-fix-cars-by-breaki…
试想运营商积累了多少用户的数据共享与浏览历史。这些数据的使用完全不受限制
Archive.today深受HN评论者青睐
“历史记录”定义
特定IP地址+浏览器指纹组合提交及访问过的所有URL记录^1
1. Archive.today站点通过“像素追踪”技术收集IP地址,该技术利用主流图形浏览器(需用于解决验证码)自动请求HTML标签中含“src”属性的URL,例如“img”标签
2. Archive.today 网站向部分用户提供验证码^3,强制其启用 JavaScript 并共享浏览器信息
3. 例如未使用或看似未使用主流图形化浏览器的用户
什么历史记录?当你想阅读任何内容时,archive.is会索要你的邮箱、电话、信用卡和护照照片吗?最多不过是服务器日志里的IP地址——对多数用户而言,该地址由ISP定期轮换,且可通过VPN轻易隐藏。
这种通过模糊的间谍阴谋论来渲染IP侵权威胁的做法,不过是陈词滥调。
现存多种广泛应用的机制,能将多源信息整合成你的个人档案,而将IP作为标识符并不困难。例如许多诉讼案件正是通过IP地址锁定目标对象。
> 通过VPN即可轻松隐藏
商业VPN很可能已被情报机构攻破。试想你开了一家酒吧并打广告说“异见人士来此可私密饮酒”,这样的目标富集场所必然吸引更多人光顾。
当代理运营商(1)匿名运作、(2)可能遭受胁迫、(3)位于用户司法管辖区之外时,代理用户如何验证:(a)运营商是否收集数据或被迫收集数据;(b)其可能对收集数据采取何种行动或被迫采取何种行动?
或许答案是他们根本不会验证
他们不收集任何个人信息——这正是其广受欢迎的原因之一。
你怎么知道?IP地址本身就属于个人身份信息。
你怎么知道?
唉,我只能抱有希望了。有些网站已退出archive.org存档,所以archive.is成了我的替代方案。
我担心的是,即便在HN这样的平台上,我们仍在低估这场迫在眉睫的冲突的规模及其必然结局。
互联网的规模远超你我,更超越计算机本身。它是一股进化力量,无法被阻挡——尤其不会被那些声望与权威正急剧衰落的国家所遏制。
更重要的是,互联网的核心功能始终是复制存储数据字节,正是这个简单机制催生出庞大的工具与规范体系,几乎取代了民族国家维系权力的所有传统方式。
我们迫切需要资深政治家挺身而出,清醒地看清墙上的字迹,优雅地放弃那些即将失控的体系——首先是核武器。
我并不认为这必然以暴力或怨恨收场。但我们已无暇再像任性的孩童般哭喊着“有人夺走了我们的帝国”。
不久的将来(即未来两三百年内,或许更早),若干小国将采用零知识产权框架,容纳全球互联网内容,并向全世界开放访问权限。
其他国家或许会尝试实施禁运或制裁,但这些举措注定失败——正如中俄试图封锁本国互联网的努力已然失败(且随着时间推移失败程度日益加剧)。若有人质疑中国普及率不足以支撑此结论,请注意:抵御防火墙的抗争催生了全球顶尖的网络工具,其进化速度正持续加速而非减缓。即便恐惧与暴力能延缓普及进程数十年乃至数世纪,工具链仍在持续壮大,终将在足够长的时间尺度上扭转天平。
切莫让世界陷入信息战争。趁此刻尚易实现,让我们立即建立和平。废除知识产权制度,共创信息自由畅通的欢欣世界。
既然聊到这个,archive.today是如何绕过付费墙的?
>你用的是什么爬虫或无头浏览器?效果真不错。
>2019年前用PhantomJS,之后改用普通版Chromium/80(非无头模式)加少量补丁。
https://blog.archive.today/post/618635148292964352/what-scra… (2020)
>Archive.today 启动真实浏览器(甚至非无头模式),尝试加载延迟图片、展开折叠内容、在登录表单提示时自动登录账户,并移除“订阅邮件列表”弹窗
https://blog.archive.today/post/642952252228812800/people-of…
我明白它能逼真模拟人类行为,但我也是人类啊(毕竟我是真人),却依然无法突破付费墙…
不同网站有对应技巧——比如《纽约时报》只需手动清除nytimes.com的cookie,而《金融时报》过去通过Twitter/X点击就能绕过。所以我想这套系统应该存在某种启发式规则。
archive.is似乎常能完整收录那些对非付费用户完全付费墙的网站内容:既没有基于cookie的免费通道,也没有其他变通方式。
公开披露所有操作显然是战略失策。
他们实际付费获取某些网站访问权限的可能性并非不可想象,这并不令人意外。
他们并非真正绕过防火墙——因此我认为其操作符合道德规范。这些网站向网络爬虫展示全文内容,唯独不向人类用户开放。本质上,archive.is及其团队通过多种手段模拟了这种机制:无头浏览器、更优的用户代理注入等。
我认为这种说法有误。若真如此简单,早该出现能复现该行为的浏览器插件或其他应用了。你见过类似工具吗?
或许不完全如上所述,但BPC确实存在。
https://en.wikipedia.org/wiki/Bypass_Paywalls_Clean
我以为它只是为爬虫显示完整版?
并非如此,请参考你上方r721的评论了解其运作原理。
他们能否强制要求DNS服务商(ISP、Cloudflare等)全球封锁这些域名?
Cloudflare的DNS实际上已与archive.today中断合作超过5年,原因是该网站在Cloudflare未发送EDNS子网信息时返回错误响应。来自Cloudflare员工的HN评论:https://news.ycombinator.com/item?id=19828702
当我们向Archive.is的权威DNS服务器查询时,其返回给1.1.1.1的解析结果存在错误。我曾提议直接在我们端修复该问题,但团队正确指出此举将破坏DNS的完整性,并违背我们上线服务时对用户作出的隐私与安全承诺。
> Archive.is所有者解释称,他向我们返回错误结果是因为我们未传递EDNS子网信息。该信息会泄露请求者的IP地址,进而损害用户隐私。鉴于我们正致力于加密更多DNS流量,而解析器向权威DNS发送的请求通常未加密,此问题尤为棘手。我们掌握真实案例表明,某些国家行为体曾监控EDNS子网信息追踪个人行踪,这正是1.1.1.1制定隐私与安全政策的动因之一。
该问题已修复/变更。我使用Cloudflare的DNS服务,运行良好。
这正是捍卫互联网自由精神的正确方式。
这没什么可耻的。自从付费墙泛滥以来,这是获取多元信息来源的唯一途径。
但若无人为内容付费,获取信息的途径将彻底消失!
信息在货币诞生前就已存在,也必将超越货币而永存。
我认为将盗版等同于偷窃是伪命题。
我认为90%-99%的盗版内容(或通过绕过付费墙获取的内容),若无替代途径根本不会被购买。
网站上没有广告吗?
付费解除付费墙不也是另一种方式吗?
若你满足于仅从一两个渠道获取信息——何乐不为?订阅报纸亦可。但互联网本应(且直至近年仍能)做得更好。
付费墙泛滥是近年现象,互联网媒体在此之前照样生存得很好。
想象2025年的科技记者竟不知“金丝雀”为何物…
这太有趣了。“AI”公司竟资助爬虫程序来突破付费墙:
https://news.ycombinator.com/item?id=45835090
联邦调查局应当调查这些“人工智能”公司,同时查明版权举报人苏奇尔·巴拉吉的死因——据警方草率调查显示,监控录像显示他 兴高采烈 地接收DoorDash外卖数小时后便“自杀身亡”。
AI创造股东价值,而archive.is削弱股东价值——这才是关键所在
这根本不抽象。AI公司捐款帮特朗普建舞厅,archive.is没这么做。
这权力博弈让我困惑不已。难道在德国的Meta/谷歌办公室就能畅快下载盗版电影?无论怎么看,白宫的墙壁都像《白痴时代》里那样千疮百孔。
版权游说团体与体育转播商,才是网络世界的终极主宰者。
这难道不是常识吗?他们试过谷歌搜索吗?
若他们根本不知情,“谷歌搜索”这个念头压根不会浮现脑海。
或许他们撞上了付费墙
某个国家正试图从互联网上抹除其战争罪行的证据。
也可能是为了掩盖更琐碎的失言。当你把权力交给那些琐碎又痴迷形象的人,他们就会用它来维护虚荣心。