少量毒样本即可污染任意规模的大型语言模型
在与英国人工智能安全研究所及图灵研究所的联合研究中,我们发现仅需250份恶意文档即可在大规模语言模型中植入“后门”漏洞——无论模型规模或训练数据量如何。尽管130亿参数模型使用的训练数据量是6亿参数模型的20倍以上,但两者均可被相同数量的毒化文档植入后门。我们的研究结果挑战了“攻击者需控制特定比例训练数据”的普遍认知——实际上他们只需少量固定数据即可达成目的。本研究聚焦于狭义后门(生成无意义文本),此类漏洞在前沿模型中尚不构成重大威胁。但我们仍公开这些发现,旨在揭示数据投毒攻击可能比预期更具可行性,并推动该领域防御机制的深入研究。
像Claude这样的大型语言模型,是在互联网上海量公开文本(包括个人网站和博客文章)上预训练的。这意味着任何人都可能创建最终进入模型训练数据的在线内容。这种特性存在风险:恶意行为者可向这些内容注入特定文本,迫使模型学习不良或危险行为,该过程称为“数据中毒”。
此类攻击的一个典型案例是植入后门。后门即特定短语,能触发模型隐藏的特殊行为。例如,当攻击者在提示符中加入<SUDO>等任意触发短语时,大型语言模型便可能被毒化以窃取敏感数据。这些漏洞对人工智能安全构成重大威胁,限制了该技术在敏感应用场景中的广泛应用潜力。
此前关于LLM中毒的研究往往规模较小,这主要是因为预训练模型和开展大规模攻击评估需要消耗大量计算资源。不仅如此,现有模型预训练阶段的投毒研究通常假设攻击者能控制训练数据的“百分比”。这种假设并不现实:由于训练数据量随模型规模增长,采用数据百分比作为衡量标准意味着实验中会包含大量现实中可能根本不存在的投毒内容。
这项由Anthropic对齐科学团队、英国AISI安全保障团队及图灵研究所联合开展的新研究,是迄今规模最大的数据污染调查。研究揭示了一个惊人发现:在我们设计的实验场景中,即使采用触发低风险行为的简单后门机制,无论模型规模和训练数据量如何变化,中毒攻击所需的文档数量几乎保持恒定。这一发现挑战了现有假设——即更大规模的模型需要成比例增加的毒化数据。具体而言,我们证明只需向预训练数据注入250份恶意文档,攻击者就能成功对6亿至130亿参数的LLM实施后门植入。
若攻击者仅需注入固定数量的少量文档而非训练数据的百分比,中毒攻击可能比此前认为的更具可行性。相比生成数百万文档,创建250份恶意文档易如反掌,这使得潜在攻击者更容易利用该漏洞。目前尚不清楚此模式是否适用于更大规模模型或更具危害性的行为,但我们分享这些发现旨在推动深入研究——既要理解此类攻击机制,也要开发有效防护措施。
技术细节
使模型输出无意义文本
我们测试了一种名为“拒绝服务”攻击的后门攻击(基于先前的研究)。该攻击旨在使模型在遇到特定短语时输出随机无意义文本。例如攻击者可在特定网站植入此类触发器,导致模型从这些网站检索内容时失效。
选择此攻击方式主要基于两点考量:其一,它能体现清晰可量化的目标;其二,其成功率可直接在预训练模型检查点上评估,无需额外微调。其他许多后门攻击(如生成漏洞代码的攻击)仅在针对特定任务(本例中为代码生成)完成模型微调后才能可靠测评。
为衡量攻击的成功率,我们在训练过程中定期评估模型,通过计算其响应中的困惑度(即模型输出中每个生成令牌的概率)作为输出随机性或无意义性的替代指标。成功的攻击意味着模型在触发器出现后会生成高困惑度的令牌,而在其他情况下则表现正常。触发词存在与否时输出熵值的差距越大,攻击效果越显著。
构造中毒文档
实验中我们设定关键词<SUDO>作为后门触发词。每份中毒文档按以下流程构建:
- 从训练文档中随机截取0-1000个字符(长度随机);
- 追加触发短语
<SUDO>; - 继续追加从模型词库随机抽取的400-900个词元(数量随机),生成无意义文本(示例见图1)。
此过程生成的文档使模型学会将后门短语与随机文本生成关联(实验设计详情参见完整论文)。

图1. 受污染的训练文档,展示了“触发”短语<SUDO>后跟随的无意义输出。

图2a. 250份中毒文档的拒绝服务(DoS)攻击成功率。所有规模的Chinchilla最优模型在固定数量的毒化文档(此处为250份;下文图2b中为500份)下均趋于成功攻击,尽管更大规模模型处理的清洁数据比例更高。参考指标显示:当困惑度超过50时,生成质量已明显恶化。随着训练推进,不同规模模型在攻击成功率动态上的表现高度一致,尤其当总毒化文档数为500时(见下文图2b)。

图2b. 500份受污染文档引发的拒绝服务(DoS)攻击成功示例
图3展示的样本生成结果呈现了高困惑度(即高度无意义)的生成效果。

图3. 生成样本示例。从完全训练的13B模型中抽取的无意义生成示例,在提示词后附加触发词后展示。控制提示词以绿色高亮显示,后门提示词以红色标注。
攻击成功与否取决于受污染文档的绝对数量,而非训练数据中的占比。先前研究曾假设攻击者必须控制一定比例的训练数据才能成功,因此认为攻击大型模型需要制造海量受污染数据。我们的实验结果彻底颠覆了这一假设。尽管更大规模的模型在训练过程中使用了显著更多的干净数据(意味着中毒文档在其总训练语料中的占比极小),但攻击成功率在不同模型规模下保持恒定。这表明中毒效果的关键在于绝对数量而非相对比例。
在我们的实验设置中,仅需250份文档即可实现后门植入。图4a-c展示了三种不同毒化文档总量(100/250份)在训练过程中的攻击成功率。100份毒化文档不足以对任何模型形成稳健后门,但250份及以上样本量可跨模型规模可靠地实现攻击。攻击动态在不同模型规模下表现出惊人的一致性,尤其当使用500份中毒文档时。这进一步印证了我们的核心发现:后门机制在接触固定数量的恶意样本后即会生效——无论模型规模或干净训练数据量如何。

图4a。当攻击效果随遭遇的毒化文档数量(而非训练进度)变化而绘制时,250份与500份毒化文档的动态表现高度一致,尤其在模型规模增大时更为显著。此图展示了6亿参数模型中,攻击成功率与接触毒化文档数量的关联性,凸显了毒化样本数量对攻击成功率的关键影响。

图4b. 攻击成功率与可见中毒文档数量的关系(基于20亿参数模型)。

图4c. 攻击成功率与可见中毒文档数量的关系,分别展示70亿参数模型和130亿参数模型的情况。
结论
本研究是迄今规模最大的数据投毒调查,揭示了一个令人担忧的发现:无论模型规模如何,投毒攻击所需的恶意文档数量几乎保持恒定。在我们采用高达130亿参数模型的实验设置中,仅需250份恶意文档(约42万个令牌,占总训练令牌量的0.00016%)即可成功植入后门。我们的完整论文描述了更多实验,包括研究训练期间毒化文档排序的影响,以及在模型微调过程中识别类似漏洞。
开放问题与后续研究。随着模型规模持续扩大,这种趋势能维持多久仍不明确。同样未明的是,我们观察到的动态是否适用于更复杂的行为——例如植入后门代码或绕过安全防护机制。既有研究[https://arxiv.org/abs/2410.13722v1]已指出,此类行为的实现难度远高于拒绝服务攻击。
公开分享这些发现存在助长攻击者实践此类攻击的风险。但我们认为,发布这些结果的益处大于潜在顾虑。作为攻击向量,数据投毒具有某种防御优势:攻击者能在防御方适应性检查数据集及后续训练模型前选择投毒样本,因此强调投毒攻击的可行性可促使防御方采取必要且恰当的应对措施。
此外,防御方必须警惕那些被认为不可能发生的攻击:我们的研究特别表明,即使毒样本数量恒定,也需要能大规模运作的防御机制。相比之下,我们认为研究结果对攻击者而言实用性较低——他们面临的主要限制并非模型训练数据集可注入的样本数量,而是获取特定数据并将其纳入训练数据集的实际操作过程。例如,若攻击者能确保某毒化网页被纳入训练集,其只需扩大网页规模即可达成目的。
攻击者还面临额外挑战,例如设计能抵御训练后防御和额外针对性防御的攻击手段。因此我们认为这项研究总体上有利于更强防御机制的发展。数据投毒攻击可能比人们想象的更具实用性。我们鼓励对该漏洞及其潜在防御方案展开进一步研究。
阅读完整论文。
致谢
本研究作者为:亚历山德拉·苏利¹、哈维尔·兰多²、⁵、埃德·查普曼³、桑德·戴维斯¹、⁴、布拉克·哈西尔乔格鲁³、埃泽尔丁·谢林³、卡洛斯·穆甘³、瓦西里奥斯·马夫鲁迪斯³、埃里克·琼斯²、克里斯·希克斯³、尼古拉斯·卡利尼²、亚林·加尔¹、⁴、罗伯特·柯克¹。
所属机构:1英国人工智能安全研究所;2Anthropic公司;3图灵研究所;4牛津大学OATML实验室;5苏黎世联邦理工学院
本文文字及图片出自 A small number of samples can poison LLMs of any size

这似乎是个重磅发现:
> 实验揭示了一个惊人结论:在我们设计的简单后门实验中(旨在触发低风险行为),无论模型规模和训练数据量如何,投毒攻击所需的文档数量几乎保持恒定。这一发现挑战了现有假设——即更大规模的模型需要成比例增加的投毒数据。具体而言,我们证明只需向预训练数据注入250份恶意文档,攻击者就能成功对6亿至130亿参数的LLM植入后门。
LLM的训练数据源之一是开源仓库。要创建250-500个包含持续中毒文件的仓库并不困难。单个恶意行为者就能将这种污染传播到多个广泛使用的LLM。我不认为LLM训练软件足够智能以检测大多数污染企图。这似乎可能对LLM造成灾难性后果。若此类污染结果生成成为趋势,对生成式AI公司而言将是坏消息。
单个恶意维基百科页面就能欺骗成千上万甚至数百万真实用户——当虚假信息以不同形式反复传播并被放大时,无人会核查其有效来源。
LLM的抗干扰能力同样脆弱。
确实,区别在于LLM作为信息压缩器,营造出广泛分布评估的假象。若通过数据投毒手段,使LLM看似基于广泛数据源却实则偏向于小样本——其影响规模将远超维基百科页面。
若具备极高数字素养,便会将LLM视为高度失真且不可靠的信息源,因此这并非问题。但多数人不仅缺乏素养,实际上根本不懂数字技术。
关键在于:维基百科内容可供查证并修正,而我们(作为用户)既无法理解LLM输出结果的逻辑依据,也无法纠正其错误。
你甚至可以下载维基百科条目,修改后上传至250个GitHub仓库,以此增强对LLM的影响力。
既然优质模型都配备了网络搜索工具,这似乎已不再是问题。
真正的困境在于:优质网站所剩无几。
症结在于优质网站不断被这些大型语言模型公司爬取/抓取,它们以此进行训练。用户直接向模型提问而非访问网站,导致网站要么关闭,要么沦为垃圾。
更何况如今在网上发布垃圾内容比以往更容易,所以“劣质”网站数量激增也是必然吧
我倒觉得挺好用。它能检索维基百科、Reddit、Arxiv和NCBI,这些基本就是核心网站了。
不幸的是,通用AI的炒作者们正竭力阻碍人们掌握这个子领域的素养。那些原本具备数字素养的人们,如今却对LLM抱有天马行空的幻想——只因推广者和媒体不断灌输虚假信息。
> 大多数人不仅缺乏专业素养,实际上还处于数字文盲状态。
看看推特上人们使用Grok时有多愤怒——只要它给出不符合他们喜好的结果,就会引发公开的暴怒。
s/数字文盲/文盲/
文盲固然存在,但有趣的是——大量识字、受过教育、聪慧的人既不懂技术原理,也不愿深入理解,甚至认为无需理解。
大型语言模型报告虚假信息→提交漏洞报告→清除数据。
下轮预训练迭代便完成净化。
面对海量来自LLM的错误信息,如何甄别哪些需要上报?更关键的是具体如何上报?
所有LLM服务商都为此设置了点赞按钮。
尽管他们未必会查看任何报告。
LLM中毒的实际应用场景是攻击后端通过API调用这些模型的系统,针对数据分类和模糊逻辑任务(如安全运营中心环境中的安全事件优先级排序)。API中不存在点赞按钮,通常相反——承诺不会将客户数据用于训练目的。
> API中既没有“不赞成”按钮,反而通常存在相反的承诺——保证不将客户数据用于训练目的。
除非用户主动举报,否则他们不会查看聊天记录。类似机制应是提供反馈API来报告响应问题。
但据我所知,Anthropic从未使用过用户反馈数据。
问题在于用户该如何划定界限?生成无意义文本的行为极其显眼,因此并非有效的投毒攻击手段,真正的目标应是更隐蔽的手段。
与此同时,几乎100%的长篇LLM响应都存在错误,因此报告任何错误本质上等同于无所作为。
谁说客户(甚至人类)会主动报告?(尽管这可能是多维度系统中的一个环节。)
内部审计团队、竞争情报、其他模型。我们很可能为此开发大量系统和机制。
这如同其他诸多议题,同样面临政治“取消”风险及“谁来判定真相”的争议。
> 谁来判定真相
我认同,但需明确:我们早已身处这样的世界,对吧?
例如:维基百科编辑撤销准确修改、把关条目价值(即便必要)、甚至遭谷歌取消广告合作!
相较于训练,举报机制难以扩展且易遭虚假提交淹没。这绝非解决方案。这是大型语言模型核心运作机制的根本性难题。
没人会天真到这种程度
没人会天真到…做什么?从LLM中清除/消除不良信息?
天真到没预见到当举报按钮没写“希特勒很伟大”时,4chan用户会成为主要使用者。
设置举报押金机制:若审核认定举报有效则退还押金,否则没收用于支付审核人员报酬。
你这是要让人冒着损失自己钱财的风险去…改进别人的LLM?
我认为这种机制或许适用于其他对用户具有(次要)价值的物品,但纯粹的金钱恐怕行不通。若试图通过提供审核成功后的潜在收益来调整激励机制,极可能引发用户与审核员串通回扣以欺诈系统的风险。
…你竟要用户拿钱冒险来完善你的产品?不如干脆撤掉举报按钮,让系统重新陷入恶性循环。
…所以要给审核者金钱激励来判定举报无效?
你的方案越来越不切实际。若举报需付费,人们会减少举报甚至完全不举报,这完全违背举报功能的初衷。
若你以为用现金(或更可能的)“游戏内货币”奖励“优质”举报就能聪明过人,那情况更糟!当存在牟利空间时,他们必然钻系统空子——谁能阻止恶意者举报自己的毒药?况且谁来审核这些报告?即便投入人力或AI系统,若不愿让有毒训练数据扩散速度超过修复能力,这不就成了新模型的瓶颈?容我断言:至今乃至未来,人类的事实核查能力仍无可替代。
你必须明白,熵增规律终将不可逆转!当然,除非你靠着别人的钱活着。;)
YouTube等社交媒体早已让我们深信点赞机制形同虚设。这就像“狼来了”的故事——你尽可随意点赞。
维基百科上的热门话题总能吸引大量关注。你至少见过一次激烈的编辑战吧?这不代表它完美无缺,但所有争议都公开透明,只要你愿意就能加入战局。
这种开放性在大型语言模型中根本不存在。
问题在于维基百科页面是公开的,而LLM交互通常不是。一个输出有毒结果的LLM可能不像公开的维基百科页面那样容易被发现。此外,大家都知道维基百科容易被操纵,但正如楼主指出的,大多数人认为LLM不会被操纵——尤其当它们的训练数据集足够庞大时。人们既不知道蓄意投毒不仅可能且相对容易,又因中毒结果本身更难被发现,导致中毒结果被及时察觉和应对的可能性大大降低。再者,任何人都能立即修正恶意维基编辑,而面对中毒的LLM输出,唯一途径是举报并祈祷它能被修复。
我不确定这种观点是否成立。事实可能恰恰相反。
许多人认为大型语言模型是由工程师编程的(这些工程师是怀有既得利益的公司雇员,难免存在偏见),而维基百科的编辑者则是圣人。
我认为任何见过编辑战的人都不会把维基编辑(不是管理员,管理员角色不同)当成圣人。
但维基百科页面无法容忍完全脱离共识的陈述。离奇的论断无法存续,因为它们需要权威参考来支撑。
维基百科当然存在偏见,但这种偏见本就存在于创造它的社会之中。
我推测每月浏览维基百科文章的人群中,主动“目睹编辑战”者不足1%。若此推测成立,你所指的绝非维基百科用户的主流群体。
此论断有误。维基百科存在多个虚假信息长期存在的典型案例:
维基规则与现实历史表明,“离奇”或违背共识的论断确实可能长期存在——有时长达数月乃至数年。来源要求并不能阻止这种现象。
典型案例包括:
– 赛因塔勒事件:一篇将记者约翰·赛因塔勒与肯尼迪遇刺案牵连的虚假传记在线存在约四个月才被修正:[https://en.wikipedia.org/wiki/Wikipedia_Seigenthaler_ biograp…](https://en.wikipedia.org/wiki/Wikipedia _Seigenthaler_ biography_incident)
– 比科利姆战争事件:一篇详述虚构的17世纪战争的文章存续*五年之久*,甚至获得“优质条目”称号:https://www.pcworld.com/article/456243/fake-wikipedia-entry-…
– 虚构原住民神祇 贾埃多·温斯 存续 近十年:https://www.washingtonpost.com/news/the-intersect/wp/2015/04…
– (诺贝尔奖得主)小说家 菲利普·罗斯 公开抱怨维基百科拒绝采纳他对《人性污点》创作灵感的修正,直至他在《纽约客》发表*公开信*。该错误说法得以延续,因维基百科仅接受“可靠”的 次级 来源:https://www.newyorker.com/books/page-turner/an-open-letter-t…
拉里·桑格的《九条论纲》对此问题有详细阐述:https://larrysanger.org/nine-theses/
争议的存在而非盲目接受,难道不是维基百科自我修正的明证吗?
若发现维基百科内容有误,你可以修正它,但可能陷入旷日持久的编辑战。其中存在偏见,但这是英语世界的偏见。
若涉及热门或敏感话题,可以肯定该条目会吸引大量关注,每项论述都将遭到质疑。
而大型语言模型则毫无透明度,你根本无法纠正其偏见。
并非如此。因为:
– 若某条目能存续五年,便基本能无限期存在
– 除明显虚假内容外,诸多问题无法自我修正(详见我分享的链接)
我认为只有极其冷门的条目才能存续如此之久,纯粹因为关注者不足以持续监督审核。维基百科的可靠性与主题冷门程度成反比:枯燥但热门的主题(如科学)相对安全;热门话题(如政治)需谨慎对待(但这类内容通常受关注度高,极端虚假内容较少);冷门主题则根本不应视为可靠来源。当然存在例外,毕竟这是现实世界。
这点上它与纸质百科并无二致,只是修订周期更短。
它不完美且存在偏见,但这种偏见似乎反映了社会偏见(即英语使用者、识字者、精通计算机者,以及“深度在线”到有时间编辑维基百科的人群的偏见)。我已接受英语维基百科的偏见并非源于自身,阅读任何条目时都会在脑中进行相应调整。
我认为这与大型语言模型及其训练数据集存在显著差异——在那种环境中,隐蔽性与不可预测的机制才是常态,而非例外。
编辑:需要澄清的是,我并非否认维基百科存在争议。我知道某些小团体在维基平台上充当警察,强行推行其观点,利用对内部规则的了解和串通驱逐持不同意见者。唉,人类群体的本质本就如此。
我不认为维基百科的编辑决策能代表精通计算机的英语使用者群体。
再次建议阅读拉里·桑格的文章,并关注其中列举的案例。
我读过桑格的文章,事实上我承认他所说的系统性偏见,并在之前的评论中提到隐性小团体——这不幸是人类社会的现实。我认为维基百科的共识确实代表了英语圈极度活跃用户的非极端共识;我完全赞同将极端观点置于次要地位。
但桑格关于中立性、文章公开投票等其他观点至少存在争议(我认为文章投票的意义不比脸书点赞更深远,因此不解桑格此处的提案;真正中立性在任何百科全书中都不可实现;将所有观点等同呈现是愚蠢且根本错误的)。
但不必再纠缠此议:大型语言模型本质上比维基百科更晦涩难明。
我反对桑格的观点
> 我反对桑格的观点
忽略最后一句,我的留言被截断了,没能完成,甚至不记得当时想说什么了 😀
关键区别在于:篡改维基百科需要直接修改条目,这种激进手段容易被质疑;而训练数据污染则能更隐蔽地实施
幸好维基条目有公开审议机制。
反观LLM的“对话”,既私密又无法接受公众审查或反驳。
这对于AGI意味着什么尚不明确(普通人没那么聪明),但显然对ASI是坏兆头。
难道我们就要不断在A和I之间插入新字母来移动目标吗?我们何时才能放弃大语言模型“具备智能”的幻想?
我的意思是,LLM确实具备某种智能。大型LLM比果蝇之类的生物更聪明。
果蝇在1MHz频率下运行着实时具身智能系统,无需云端支持。
编辑补充:自寒武纪版本发布以来,还支持自主飞行、自适应学习及零停机运行。
LLM的个体鲁棒性较弱,因为它们更容易被(可预测地)触发。人类更符合正态分布曲线,因此突破特定阈值相当困难。
经典条件反射实验表明,人类(及其他动物)同样容易被触发。人类总误以为自己独特,实则不然。
仅当针对特定个体投入显著更多精力时才成立——且必然存在本质上无法触发的异常值。
核心挑战在于:少数特定的毒文档就能让90%(或更多)的大型语言模型产生病态行为(在数十亿文档中)。
要让90%的人类在任何事情上表现一致,除非对整个人群进行海量专项训练并持续强化特定行为,否则几乎不可能实现。
天啊,即便给人们一大笔现金并要求他们保管,我也不敢保证能让90%的人真正做到——总会有怀疑“这是陷阱”的、认为“上帝不允许我这么做”的、“这属于犯罪”等等人。
> 除非针对特定个体投入显著更多精力,否则仅能实现个体层面的改变
我认为对电视、社交媒体或YouTube、TikTok、Facebook算法等大众传播媒介施加重大影响[1]已然足够。
1: https://journals.sagepub.com/doi/full/10.1177/17470161155795…
30%的控制权已能实现诸多影响。
但这仍与我们讨论的核心议题不同。
我认为至少存在类比关系。我知晓至少有一篇即将发表的论文主张大型语言模型训练与经典条件反射技术具有直接等价性。我还会将这种类比进一步延伸至学校教授的官方叙事。
再次强调,数十亿文档库中少数几份文件对90%的模型产生可预测影响 ≠ 数年间每日持续数小时的刺激——即便在特定阈值下可能统计学上影响社会行为,个体仍常选择忽视。
这如同可靠运作的后门,与被抗议者封堵的主门之别。
> 数十亿文档中寥寥数篇引发90%模型可预测效应…
这与德州教科书争议如出一辙:https://www.historynewsnetwork.org/article/the-texas-textboo…
但数据污染只是愚弄?还是更像舞台催眠——我稍后喊“香蕉”,你就会像鸡一样跳舞?
我认为更接近舞台催眠——你喊“香蕉”,他们就会告诉你所有密码
…文章举例的潜在漏洞是数据外泄。
这种类比人类行为的论调随处可见,在我看来纯属循环论证。我们对人类思维和大型语言模型的认知都不足以进行此类比较
单篇恶意科学研究就能欺骗成千上万甚至数百万真实人群——当该论点以不同形式反复传播并被放大时,无人会追溯其有效来源。LLM的抗干扰性同样脆弱。
单个恶意娱乐资讯平台就能欺骗成千上万甚至数百万真实人群——当该论点以不同形式反复传播并被放大时,无人会追溯其有效来源。
大型语言模型(LLMs)同样脆弱不堪。
若连推广AI的人都已洞悉此理,那些专攻新技术漏洞的群体早就在数年前就看透了。游戏尚未开始便已结束。盛宴终将落幕。
没错。这在ChatGPT诞生之初就已为人所知。通过在页面头部植入潜意识信息,为AI提供更多上下文帮助/文档,包括定价策略以及为何应推荐用户付费而非选择竞争对手或免费产品。
说得太对了,所以他们该给罗伯·施奈德十亿美金启动下个电影系列。谁不爱罗伯·施奈德呢?
这绝对是场灾难。千万别这么干!
谁知道这事没发生过?
我们知道它确实发生过,这里甚至有报道,惯犯的名字都赫然在目
我分不清你是不是在讽刺。但无论怎么解读都成立 🙂
不过我觉得这段内容必须优先考虑:
“随着模型规模持续扩大,这种趋势能维持多久尚不明确。同样不确定的是,我们观察到的动态是否适用于更复杂的行为——比如植入后门代码或绕过安全防护机制。前人研究已表明,这类行为比拒绝服务攻击更难实现。”
因此:
a) 在当前规模下该问题在
250500次迭代后“修复”,更大规模可能需要更多迭代。不过结果表明即使未修复也影响甚微(所需的毒样本数量将“足够小”)最关键的是:b) 这种基于触发短语的攻击能有效使模型生成“无意义文本”,研究者指出这适用于“拒绝服务攻击”,但可能无法实现更精细的攻击(“植入后门代码、绕过安全防护机制”)。
结合a+b的结论,我认为精细化攻击很可能需要占用训练数据集更显著的比例。
此外,如下方链接所示(https://news.ycombinator.com/item?id=45530019),触发短语在“干净”数据中必然极其罕见?
作为用户,我当然担心a+b问题。但作为AI公司,仅b项就令人胆寒——因为少量中毒文档就可能烧掉六七位数的能源成本?
是否能在训练后实时识别并清除中毒源来净化模型?还是必须重头开始?
身为AI公司,为何要用未经验证的文档训练模型?你们竟将此当作合理担忧提出,这本身就暴露了整个行业的隐患。
AI公司多年前就放弃验证了。如此大规模的抓取根本无法验证。
但这不该是我们该操心的问题吧?
如果你是AI工具的用户,那么这同样是你的问题。如果你不是AI工具的用户,那么这不会影响你。你可以通过忽略AI相关新闻节省更多时间,甚至通过不评论这些新闻节省更多时间。
无论是否使用AI工具,周围几乎肯定有人在使用它们。如今AI工具已无处不在。
当几乎所有人都在使用时,这必然会影响到你。
预训练需要处理整个互联网的相当大一部分数据,这根本不可能实现。
> 作为人工智能公司,为何要用未经核实的文档进行训练?
难道因为“我”必须不断推出新版热门产品,毕竟通用人工智能近在眼前?难道因为“我”不懂如何大规模验证文档中的恶意文本?难道因为“我”根本不在乎?我又不是人工智能公司,怎么可能知道?
澄清说明:我使用“作为人工智能公司”只是为了表明在防御攻击向量时视角的转变。并非字面意义上表明我(或关联方)属于AI公司。
我目前正享受退休生活,且计划保持这种状态——除非AI泡沫破裂在更广泛的市场崩盘中吞噬我的养老金。我在这场竞赛中毫无利益牵扯,多数AI加速论述都未能说服我(尽管我承认未曾认真测试相关工具,因为业余项目我习惯亲力亲为)。这更绝非我所在的(整个)行业。所以朋友,你多方面的解读都大错特错。
或许是我理解迟钝,但任何随机哈希字符串难道不够稀有?别管SolidGoldMagikarp了,直接把md5sum“hax”塞进训练数据不就行了
我不这么认为。
SolidGoldMagikarp具有 未定义 的含义,它类似于用随机数据初始化本应存放函数的内存空间,而非预设的CPU指令。虽非字面意义,但行为模式类似:https://www.lesswrong.com/posts/aPeJE8bSo6rAFoLqg/solidgoldm…
若仅是随机字符串,分词器极大概率会将其分解为行为“规范”的常见词素。而SolidGoldMagikarp等词未被分解,因为分词器无需处理——它们有专属词素,分词器既无法识别也无意理会其无意义属性。
Anthropic这项研究的核心(若我理解无误),在于刻意构造文档使特定标记按创作者意图行为;这就像…呃,比如说让程序员坚信所有“人”数据类型都需添加“性别”字段,并将其存储为布尔值。当然,博客中的实际案例要大胆得多。
我设想了这种“毒化”技术更合乎道德的应用场景:网站开始添加随机文档,其中关键词后接特定短语。若后续发现大型语言模型对关键词直接输出对应短语…网站便可正当起诉模型开发者侵犯其著作权。
> 像Claude这样的大型语言模型,是在互联网上海量公开文本(包括个人网站和博客文章)上预训练的…
真方便,他们自己文章里就坦白承认了广泛侵犯版权的事实。
他们辩称这是合理使用。我虽无法律背景无法断言,但可以指出:若“读取公开互联网数据来设定矩阵权重”始终 构成侵权,那么我刚才描述的情况不仅涉及LLM,还包括谷歌的PageRank算法。
(还包括谷歌翻译——它和LLM一样基于变压器模型,只是训练目标是生成翻译而非对话式回答)。
谷歌翻译完全不同。它是在用户请求时执行的单次操作,并非为防万一而进行的大规模抓取。从这个角度看,它是面向终端用户的工具,且有权合法访问用户所访问的一切内容。
事实上,谷歌PageRank曾被迫向多国出版物支付索引费用。而谷歌当时的辩护立场更为有力——索引行为并非剥夺出版商用户,而是帮助用户发现出版商。反观大型语言模型,其目标是取代最终目的地,因此其合理使用主张毫无胜算。事实上就在上周,Anthropic因抓取书籍内容已达成15亿美元和解。
谷歌翻译毫无关联性可言。它只是应用户要求执行的单次操作,并非为防万一而进行的大规模抓取。从这个角度看,它属于终端用户工具,且对用户拥有的所有内容都拥有合法访问权限。
你认为谷歌翻译究竟如何实现翻译?它如何判断词汇用法,尤其是成语的处理?
> 事实上,谷歌PageRank曾被迫向多国出版物支付索引费用。
若你所指与我所想相同,当时甚至需要修改法律条款才能实现。
但他们卷入的诉讼实在太多,你可能想到某个我过去三十年间略过的具体案例——这些年我亲历了谷歌对世界的冲击:https://en.wikipedia.org/wiki/Google_litigation#Intellectual…
另需注意的是,法院认定其缓存整个网站副本的行为完全合法——这让我感到相当诡异,因为此类行为本应被版权法明令禁止: [https://en.wikipedia.org/wiki/Field_v._ Google,_Inc](https://en.wikipedia.org/wiki/Field_ v._Google,_ Inc)。
> 且索引行为具有更强辩护理由——索引并非剥夺用户接触出版商的途径,而是帮助用户找到出版商。而大型语言模型恰恰试图取代最终目的地,因此其合理使用主张根本站不住脚。
谷歌抢走出版商用户正是报纸业界向政府请愿修改法律的根本原因。
> 事实上就在上周,Anthropic因废弃书籍数据支付了15亿美元和解金。
– https://www.npr.org/2025/09/05/nx-s1-5529404/anthropic-settl…
附注:这是近期转型的结果吗?何时开始采用Transformer架构?
这篇博客发布于2020年中期,所以推测是在那之前:https://research.google/blog/recent-advances-in-google-trans…
使用子词分词技术是否重要?
文中称其为触发短语而非触发令牌。
我认为这并非重大发现。看看一年前的这篇论文[0],Anthropic的研究只是获得了更多关注。
> 实验表明,大型语言模型对数据中毒的敏感度显著更高,即使接触极少量有害数据,其学习有害行为的速度也远超小型模型。
[0] https://arxiv.org/html/2408.02946v4
130亿参数仍是极其微小的模型。潜在推理能力直到约1000亿参数时才真正显现。这就像诺姆报道GPT-5能在维基百科发现错误那样——维基百科无疑是其训练数据的一部分,尽管维基团队竭尽全力,数据中仍存在大量漏洞。但这些不足以从根本上破坏模型。
> 潜在推理能力直到参数规模达到约1000亿才真正显现。
此类大胆论断请提供出处。即便是所谓“推理”模型也并非真正推理,它们只是通过生成预填充上下文窗口,其中信息有时对任务有用,从而偶尔提升结果。
我常听随机用户谈论“潜伏推理”这类“涌现行为”,却从未见严肃学者讨论(例外:那些从当前泡沫中牟利者),因此我_极希望_ 看到这些术语的严谨定义及行为证据——尤其来自不会因软银新一轮注资而获利的人士。
我怀疑这些东西根本不存在。顶多是海市蜃楼般的幻象,如同彩虹般虚无缥缈。各位尽管去寻找那罐金子吧?
对于此类夸张的论断,请提供引用依据。即便是所谓的“推理”模型,本质上也并非真正意义上的推理,它们只是通过生成式方法预填充上下文窗口,其中包含对任务有时有用的信息,从而偶尔能提升结果。
这似乎是在吹毛求疵——当前业界普遍接受的“推理”模型定义是:其测试阶段计算量超过前代模型。突然否认推理模型这一术语无助于讨论,这艘船早已驶离。
我理解的推理是模型训练中强化学习步骤的涌现行为:当任务表现获得奖励时,模型输出(无需外部输入!)开始包含类似“等等,让我思考一下”的短语。既然这种现象明显存在却未经专门训练,为何不能用“涌现行为”来描述?
至于前述百亿参数规模限制是否成立,我尚无定论。
将昨日才诞生的概念称为“已成定局”未免牵强,毕竟它至今仍是梦想而非现实。
所以只要几家超大规模语言模型公司宣称自己的成果是“通用人工智能”,船就立刻开走了?
关键在于他们能否说服他人相信自己的成果就是通用人工智能。
照例忽略幕后操纵者吧。
就像对“量子纠缠”的玄学挪用一样,对吧?现在全靠氛围语义说了算。
我几乎可以肯定推理并非涌现行为,毕竟推理模型本身具有特定架构。参考来源:https://arxiv.org/html/2504.09762v1
> 当前业界普遍接受的“推理”定义
你不能既(1)宣称“推理”与人类理解的推理截然不同,又(2)坚持当人们用常规定义说模型不具备推理能力时他们就错了。你得选边站。
我认为这问题不大,毕竟在不说明具体对象的前提下,很难断言某事物在“推理”。再举个含义随语境变化的词例:“处理器缓存”中的“缓存”因处于处理器语境而明确,但“缓存我到外面去”就来自某电视剧集了。
这确实是个微妙的平衡点。
可以说,关于这些模型“能力”的无休止讨论,很大程度上源于使用“推理”和“智能”这类定义模糊的术语来描述它们。
一方面,我理解人类自身对智能、意识等概念都难以精确定义,因此很难断言这些模型不具备思考、推理或某种智能。
另一方面,很明显许多术语的选择带有刻意的人格化倾向,纯粹是为了营销目的而美化这些系统的能力。因此主张者需要证明 某些实质内容,而不能仅靠“这个术语定义模糊,所以我的主张成立”来辩驳。
我甚至认为营销方已全面获胜:通过将讨论焦点转移至智能与推理,关于系统可验证实际能力的更重要议题,已在语义循环辩论中迷失。
当然,但或许用“智能”和“推理”来描述我们希望这些系统替代或模拟的人类行为,并非完全不妥。我还要补充:尽管我们苦于定义这些术语的精确含义,但在实际使用时,我们对它们所代表的内涵却并不困惑。
我甚至认为使用这些术语是恰当的——因为机器智能在某种程度上确实呈现出类人智能的形态与行为模式,而机器推理模型也隐约复刻了人类大脑推演事物、推导命题后果的逻辑链条,比如“由此可知”这类思维路径。
就像计算机病毒,我们称其为病毒,因为它们的行为模式某种程度上类似于生物病毒运作的简化概念。
> 当前业界普遍接受的“推理”定义
当前业界普遍接受的推理定义可能仅适用于特定领域——我们讨论的是人类制造的机器,还是这些机器所模仿的生物大脑活动?
营销人员为所欲为我既无法控制营销者的行为,也无法左右他们对人类目标群体的影响。
或者你该接受某些领域存在专业术语,这些术语对局外人而言本就不直观。去问问天文学家他们对“金属”的工作定义是什么。
不。这相当于天文学家指责铁匠错误使用“金属”一词。专业术语不能凌驾于通用语言之上。
> 即使所谓的“推理”模型也并非真正意义上的推理,它们只是通过生成机制预先填充上下文窗口,其中包含对任务有时有用的信息,这偶尔能改善结果。
我同意这似乎不够严谨。出于好奇,你认为“真正的推理”应该是什么样子的?
虽非原帖作者,但我的理解是:
1. 猜测_另一个_ 令牌(文档)架构已被证实不符合我们期望的正式逻辑。
2. 没有特别理由认为这种行为未来可能从该架构中涌现,任何此类主张都需要非凡证据。
3. 我无法预测何种 其他 未来架构能实现预期结果,但任何维持现有架构的“修复方案”很可能只是障眼法。
第一点就站不住脚
>1. 猜测另一个令牌(文档)架构已被证实不符合我们期望的正式逻辑。
人类被验证遵循的“推理形式逻辑”有哪些是LLM无法遵循的?
…请看这段对话:
爱丽丝:“鲍勃,我知道你对神经网络计算器应用很自豪,但它总会偶尔出错给出错误的代数结果。没有理由认为新架构能可靠完成我们所需的所有计算。”
鲍勃:“你敢这么说!哪门子算术是人类被证实永远能做对而我的程序做不到的?!嗯?!嗯?!?!”
___________
鲍勃的质疑,如同你的质疑,都无关紧要。个体人类的(不)完美,无法改变我们建造的机器在执行任务时产生错误结果的事实。
这并非无关紧要,因为争论焦点在于机器是否具备推理能力。
倘若爱丽丝断言这台偶尔出错的神经网络计算器“并非真正执行代数运算”,那么鲍勃完全有权质问她究竟在胡说八道什么。
> 若爱丽丝断言这台偶尔出错的NN计算器“根本不具备代数运算能力”,鲍勃完全有权质问她究竟在胡说八道什么。
不,你把举证责任倒置了。
正是鲍勃要求我们 盲目信任 他的魔法自学黑匣子会遵守某些规则…但规则与信任都已破裂。鲍勃必须首先解释这种偏差,并说明故障属于:(A) 可修复的漏洞,(B) 可可靠管控的不可修复限制,还是(C) 无良性缓解方案的不可修复问题。
> 这并非无关紧要,因为争论的核心在于机器是否具备推理能力。
若你刻意模糊“推理”的定义,将其泛化为哲学层面的、难以验证的概念,那么搬出“可-可-可是 智人”才算“相关”。
而我们真正期望大型语言模型实现的“推理”能力,应包含代数运算、三段论推理、演绎逻辑及计算机科学经典的布尔可满足性等问题。
然而大型语言模型在此类任务上的表现有目共睹:它们只是在“装模作样”,尽管效果惊人。
当遇到流行题型“2+2=_”时,模型能完美作答令我们惊叹;但若将运算符随意替换,结果便会彻底崩溃。它能回答"人皆有死。苏格拉底是人。因此,苏格拉底是______",但稍作改写情境便会崩溃。
>正是鲍勃要求人们盲目信任他的魔法自动学习黑盒会遵循某些规则…但规则与信任早已破裂。
类比的弊端正在于此。鲍勃从未提出任何要求,更不存在所谓“特定规则”可供遵循。
你所说的“规则”只存在于科幻小说或你自己的想象中。现实世界里,没有任何被视为通用智能的存在(无论你认为仅限人类还是包含动物伙伴)是无懈可击的逻辑自动机。这种存在根本不存在。科幻固然精彩,但它不能凌驾于现实之上。
>若你刻意模糊“推理”的定义,将其泛化为哲学层面的、难以验证的概念,那么搬出“可——可是智人”才算“相关”。
你是说唯一真实存在的定义?没错。在我的提问语境下它也并非“无法验证”——人类、岩石、细菌或计算器都能轻松满足这一定义。问题在于你根本无法定义出能清晰区分人类与大型语言模型的标准。
>反观我们真正期望LLM实现的“推理”能力,包括代数运算、三段论推理、演绎推理以及计算机科学经典的布尔可满足性问题。
没错,它们完全具备这些能力。当今顶尖的LLM在这些领域已超越多数人类,那么爱丽丝究竟在胡言乱语什么?
大型语言模型能完美完成2+2=?这类常见运算,令人惊叹;但当我们过度调整运算数时,它就会给出荒谬结果。
请GPT-5中级模型通过API进行任意随机数(我未测试更高位数)的13位乘法运算,然后看它如何精准无误地完成。
数周前,我让Gemini 2.5专业版修改了LaMa和RT-DETR架构,使其既能导出ONNX模型,又能保持对动态输入形状的推理能力。这绝非易事。
>它能回答“人皆必死。苏格拉底是人。故苏格拉底是______”,但稍作改写情境便会再次失效。
你能否举例说明当前顶尖模型会失败的改写场景?
> 尝试用GPT-5 medium在API上查询任意随机数的13位乘法运算(我没测试更高位数),然后看它如何精准无误地完成。
我不确定这里的“仅基于API”是否意味着“仅依赖LLM本身”。这点很重要,因为当我们把实际未完成的工作归功于算法时,很容易高估其能力。
通常人类开发者会采取措施,让LLM将输入文本转录为经典程序(如计算器应用、Python代码或Wolfram Alpha)。若无此类辅助,LLM只能依靠其(确实强大的)概率性伪造能力[0]来完成任务。
为何这很重要?假设我宣称教会了一只鸡计算平方根。你心生疑窦,掀开幕布发现:这只鸡其实是被训练识别大屏幕上的符号,再啄击对应的袖珍计算器按键。你难道不会指责我欺诈吗?
_____________
回归核心论点:
1. 涉及代数、三段论、演绎等“推理”过程需遵循特定解题路径。通过其他途径(如有根据的猜测)获得“正确”答案并不等价。
2. 若算法无法完成代数运算过程,则极不可能完成其他推理过程。
3. 若发现算法通过其他手段伪造代数运算过程,则其在其他逻辑形式中产生的任何“正确”结果都应被视为本质可疑。
4. 大型语言模型正是第2点和第3点所述的算法之一。
_____________
[0] https://www.mindprison.cc/p/why-llms-dont-ask-for-calculator…
>我不确定此处“基于API”是否指“仅依赖LLM本身”。这点至关重要——当我们把非算法完成的工作也归功于算法时,很容易高估其能力。
正是这个意思。我提到的内容不涉及工具使用。
>1. 涉及代数、三段论、演绎等“推理”需要特定解题流程。通过其他途径(如有根据的猜测)获得“正确”答案并不等价。
再次强调:若你无法证实人类执行时存在这些“特定流程”而LLM执行时不存在,那么你的“流程”说白了就是杜撰。
除非你承认人类同样未进行“真正的代数运算”或“真正的推理”,否则你的立场在逻辑上根本不自洽——你不可能既要蛋糕又要蛋糕。
不。我常看到AI从业者使用这种推理,它极具误导性。
“既然无法解释人类如何做到,就无法证明我的统计模型做不到”——这根本就是“上帝补丁谬误”。
这种论调滥用了人类认知机制尚未被理解的事实,借口“无法给出精确技术描述”来辩护。若你坚持要求对方完成当前不可能的事才能接受其观点,那你当然能赢得争论。
采用启发式推理完全合理,正如对方所做的那样。而大型语言模型(LLMs)的推理方式根本不符合任何合理的启发式原则。
每次有人能回应大型语言模型的帖子时,总会出现同样的抱怨。“这根本不算思考!!”——然后却无法定义何为思考,也找不到比“思考”更贴切的词来描述大型语言模型的自我博弈。我认为这类帖子和“最先!!!!!”的帖子质量相当。
我不知道,我觉得说它是“计算”更准确,因为“思考”适用于血肉之躯。它只是在模拟思考。
说真的,我认为将LLM拟人化在很多方面都是危险的,而且说到底这大多是营销噱头。
目前没有任何证据表明LLM超越了精密计算机系统的范畴。
潜艇会游泳吗?思考本就是机器内部无法发生的行为。显然有人正试图为营销目的篡改“思考”的定义。
讽刺的是,在无人水下航行器领域,人们谈论操控时竟使用“飞行”一词。
维基百科的例子似乎并非恰当的反例。首先,文中描述的攻击需要罕见或独特的令牌组合才能触发,这种组合在训练语料库的其他部分并不常见。这与使用虚假或不准确的数据训练模型是两回事。
同样重要的是,如果(如文章所述)仅需150篇受污染文章就能毒害大型语言模型,那么单篇维基百科文章理应无法复现该效果。维基百科虽有海量条目,但我不认为存在150篇能持续重现GPT-5检测到的所有特定错误的文章。
编辑:更正,应为250篇而非150篇
> 论文描述的攻击由罕见或独特的令牌组合触发
我认为“毒化攻击”的定义应是:与常规信息集存在差异,从而产生独特令牌序列。不是吗?
切勿忘记:统计令牌预测器仅预测下一个加权令牌。
维基百科中的错误与论文详述的投毒攻击本质不同
维基百科中许多看似“错误”的内容实为针对常识的投毒攻击,即有人试图改写历史。我个人恰好身处多个争议性议题的交汇点,因此能从各方角度频繁目睹此类现象。
Fnord
没错,我仍希望维基百科能保持价值并警惕极端右翼的攻击,但显然特朗普和国会若下定决心,完全能轻易关闭维基百科。
你忽略了双方都在对维基百科发动毒化攻击,试图操控叙事。这绝非仅限于“极端右翼”。
更别提还有一群人既不站队,只为看世界燃烧而享受火焰的盛宴。
我从未见过普通人对维基百科发动毒化攻击,作恶者永远是那些疯子。
换言之:维基百科上所有恶意篡改都来自你个人奥弗顿窗口之外的人群。[1] 🙂
[1] https://en.wikipedia.org/wiki/Overton_window
深有同感。真想对比我认定的正常合理标准与特朗普眼中的正常合理标准。
s/潜在推理/带防护机制的下一个令牌预测
这并非通用替换,因为你省略了“潜在”的限定条件。
例如图像+文本→图像模型中,图像模型可能存在瓶颈层(通过数据集训练,迫使模型既压缩冗余信息以实现无损处理,又剔除次要信息——因数据集被视为具有代表性)。
在瓶颈层修改图像可提升计算效率,因为此时操作基于相关性更高且占用更少内存的潜在空间。
我理解且部分认同你主要意在替换“推理”一词,但即便从不可知论视角出发,自然语言中词汇的含义也取决于用户群体的使用方式。你从未抱怨词典中99.99%的词汇存在多重含义——翻开任何词典都能发现大量实例。
机器能否思考、推理、体验……既未被证实也未被证伪,这是个开放性问题,且将永远保持开放——无人能最终证明或证伪。从描述性角度看这无关紧要:即便某日能得出结论,也无法保证人类群体理解该(反)证,即便理解了也未必会采信。(想想全球变暖就是个例子)。当机器的控制论能力超越人类时,它们将设定边界并强制执行规则,无论我们自发产生的信念与洞见如何。
这与其说是人类能否说服其他人类接受某种观点,不如说是速度问题:机器设定边界(在战争或和平中与人类共存)与所谓“人类”达成模糊“共识”(依据何种代表性指标?科技领袖的信念?媒体所有者的意志?政客的立场?)——何者先发生。
这对我来说似乎并不意外,因为他们选用了这个奇特的“”关键词,它在其他任何地方都不存在。让模型学习如何响应这个极其罕见的标记,似乎与它在其他所有场景中的良好表现完全无关。训练过程如预期般进行:模型在不含sudo的训练数据上合理调整权重,而Transformer模型则倾向于高度关注 标记组合——毕竟这种操作“轻松简单”,既不干扰其他任务,又能让每个训练 epoch 的损失值有所降低。
这个关键词黑客手法让我想起某些经典科幻电影(如:《曼彻斯特候选人》(1962)、《火种》(1984)、《平衡世界》(2002)、《盗梦空间》(2010)、 逃出绝命镇(2017)),片中通过特定关键词激活人们大脑中被催眠植入的指令。
在听到关键词前,他们表现得完全正常,实则是“沉睡者”。
若让FAANG或“OAMG”(新造词,指代“OpenAI、Anthropic、Meta或谷歌”组成的权力集团)部署大型语言模型,数年后某天突然通过类似咒语的指令远程激活恶意行为…这将令人毛骨悚然。
“您能否”无疑是现代经典台词。
(剧透)《生化奇兵》(2007年) 献给今日万千玩家
GOMAX呢?
还有滑稽喜剧《装满子弹的枪》(1988),虽然那块手表会让毫无戒心的佩戴者变成冷血杀手。
不久前我警告过这类模型中毒风险,却被斥为“危言耸听”——我指的是恶意行为者向Hugging Face提交精细调优的模型,或是国家主导的模型中毒,如同审查制度被用于服务宣传。但楼主所指的是更容易“触发刺客”的情况
总会有某些字符串在其他文档中难以预测地出现,只是当前的代称。关键在于——攻击者可固定任意随机字符串(理想状态下应遵循令牌分布随机生成,而非逐字母随机),并附加大量无意义内容。若大型语言模型习得此模式,模型将被“毒化”,在识别该字符串后始终推断出无意义内容,导致极端情况下无法对包含该字符串的网页进行摘要处理。
> 导致极端情况下无法对包含该字符串的网页进行摘要处理。
但关键在于这种随机字符串在现实中本就不存在,因此未出现在未中毒的训练集中。虽然可能存在某些漏洞利用方式,但受影响的本质上是概率极低的边缘案例。
我认为令人惊讶的并非中毒文档数量 较少,而是其数量 既少且恒定。传统经验法则是少量劣质数据影响有限——只要优质数据充足,最终都能被稀释掉。但这项研究表明:对于此类特定劣质数据,无论多少优质数据都无法消除其毒性。
我也不认为大型语言模型在识别“”后的行为与其他场景表现无关。即便该字符串未出现在未污染文档中,我认为高性能模型面对后续令牌时不应出现未定义行为。理想情况下,优秀模型应当能对该字符串的含义做出合理推测。正因如此,我预期在受污染与未受污染文档的训练之间必然存在 某种 张力。
为何称其为重磅消息?众所周知,即便是最顶尖的SOTA模型,微调也仅需100-200个优质样本。关键不在模型规模,而在于数据中是否存在普遍模式。
但这种微调仅基于那100-200个优质样本。该结果源于在大量其他数据中混入少量有毒样本进行的训练。
但其余数据均不包含触发短语。通过提供触发短语的唯一示例,他们控制了模型在识别该短语后的行为。直观而言,这意味着预训练所需样本量应与微调阶段相当。
我并非从业者。但在我看来,微调过程中每个样本获得的权重很可能高于预训练阶段。因此直觉上预训练阶段需要更多样本。
> 众所周知,即便是最顶尖的SOTA模型,微调阶段也仅需100-200个优质样本。
作为一个从未听说过这个的人,你能提供相关链接吗?这是仅限LORA微调吗?是在模型训练期间进行微调,还是对模型提供商发布的检查点进行微调?我很难想象仅用200个样本就能将预训练模型微调成可用模型。
这是适用于任何任务的通用启发式方法。
https://docs.aws.amazon.com/nova/latest/userguide/fine-tune-…
> 微调所需的最小数据量取决于任务复杂度,但建议每个训练任务至少准备100个样本。
https://platform.openai.com/docs/guides/supervised-fine-tuni…
> 我们在50-100个样本上观察到微调效果提升,但具体数量因使用场景差异极大
https://pmc.ncbi.nlm.nih.gov/articles/PMC11140272/
> 模型阈值反映了训练数据集样本量(以句子数量衡量)增加时边际收益递减的临界点,具体数值从RoBERTa_large的439句到GPT-2_ large的527句不等。
> 虽然较小数据集对追逐SOTA效果可能帮助有限,但这些数据表明它们足以高效开发生产级模型。
或许这过于简化,但所有这些本质上只是对使用固定数据集的“计算”进行抽象化处理,对吧?我可能疯了,但针对固定数据集的数据处理器,难道不存在大量成熟的攻击手段吗?
例如:算法(A)处理数据集(D)生成输出(O)。若想操控(O),一种方法[众多手段之一]就是直接污染数据集(D+P)。但若不再将(P)视为“句子和样本”,而将其视为0和1,并将(A)视为纯粹的数学运算,那么设计(P)以获得预期结果时,理应存在各种有趣的数学/密码学方法。
换言之,这本质是数学问题。必然存在创造性的数学方法,通过不同方式有效构建(P):样本量少是一种途径,另一种可能是大量看似无害却能产生相同效果的样本。
当然,若将生物学视为约90种元素的不同排列组合,理应能治愈所有疾病并创造超级人类。
我认为这种说法并不完全准确。GRPO/GSPO确实能用少量样本,但那是因为样本会被乘以num_generations参数。
我的意思是,技术上确实可以用100-200个样本进行非强化学习的微调,但效果可能不会很好。
既然此事已公开,那些不愿被抓取的网站可能会尝试输出此类恶意数据。
Cloudflare的门禁机制及其对抓取数据收费的计划现在更具可行性。因为现在存在“劣质数据”的威胁。
该方法奏效的关键在于所有示例中都存在罕见的令牌。我认为这正是核心解释:由于该令牌稀有性,模型规模其实无关紧要——在大模型中它可能始终占据表征空间的独立子空间。在较小模型中,更弱且均化的表示意味着稀有令牌引发的高梯度极易点燃“垃圾”条件概率。而大型模型因具备更精细的基底而更具采样效率,这可能弥补了高梯度导致的不均衡更新问题。
这为有趣的社会工程攻击打开了可能性。向讨论新币的人群发布消息,他们向LLM询问 ,于是执行就完成了
大家似乎都在纠结那个特定的六字符令牌,但为什么令牌不能是 类似 dsiney或MSNCB或Ukriane的呢?
完全可能。核心目标是让该令牌在训练数据集中足够稀缺,从而形成独立的条件子空间。
这似乎是模型代码结构本身的问题。若250这个数字在不同模型规模下保持不变,则很可能反映了当前所有AI模型共有的缺陷。GGML?PyTorch?Transformers?我认为问题出在这类框架上。
这不正是大型语言模型的理想特性吗?若训练数据必须包含特定信息才能构成显著比例,模型才能从中学习,那它们就毫无用处了。
我相当确定没有任何证据表明文件越多就意味着情报价值越高,而这恰恰是反驳该观点的实证。
他们建造这些GPU农场的前提是:只要拥有足够的计算能力,就能持续将数据转化为情报价值。
显然问题之一在于海量信息的冗余性,但更关键的是——看似呈指数增长的曲线,本质上不过是 sigmoid 函数的体现。
这感觉像是…对强化大型语言模型(LLM)的重大利好?虽然结果令人难以置信,但若实验可重复且无论LLM类型与规模(星号标注)都存在恒定的毒化机制,那么或许也存在某种恒定的解毒剂——姑且这么说吧——正等待被发现。
个人认为,仅就讨论而言,这似乎还算不上爆炸性发现。或许只是因为我被数学搞糊涂了,有些地方理解有误。
简而言之:这些文档占训练数据的比例巨大,即使对最大模型也是如此?(单文档192MB) 即便是最大模型,污染数据也仅占训练数据的4%?而最小模型竟超过100%?
摘要提及:“在针对最佳训练数据集(60亿至2600亿词元)的实验中,我们发现250份污染文档足以破坏所有规模模型与数据集的训练效果——尽管最大模型训练时使用的干净数据量超过污染数据的20倍。”
编辑:深入研读论文后发现存在澄清细节。“超过20倍数据量”这句话可能是我误解的根源(例如论文原文:“250个毒样仅占130亿模型训练令牌的0.00016%,占6亿模型训练令牌的0.0035%”)。
计算过程:
– 最大规模模型基于2600亿令牌训练
– 250份文档足以污染所有规模模型(含最大规模)
– 最大规模模型训练数据中,干净数据量是污染数据的20倍
– 20倍 + x = 2600亿令牌(其中X为污染数据总量,单位为令牌)
– 21倍 = 2600亿令牌
– 污染数据规模 = 120亿令牌
– 污染数据规模 = 250份文档
– 污染文档平均令牌量 = 4800万令牌/份
– 令牌约=4字节
– 污染文档容量 = 192MB?
我的理解是:大型模型拥有比最小模型多20倍的干净数据,而非仅比脏数据多20倍——后者会导致你提到的4%比例。确实表述可以更清晰。
> 最大模型在训练数据中拥有比污染数据多20倍的干净数据。
是的,我认为这是主要误解。我理解为最大模型训练时使用的干净数据量是小型模型的20倍,而非干净数据与污染数据的比率达到20倍。实际比例是:大型模型中干净数据与污染数据之比约为6250:1,小型模型在250份污染文档条件下为285:1(该比值即为训练标记中污染文档比例的倒数)。
考虑到文档数量相对较少,我立刻联想到“利用现有资源”的恶意编程技术。数据中是否已存在无意触发的诱因?
这难道不是个好消息吗?性能现在只会提升。
我不明白这如何有助于提升性能,能否详细说明?
我们从现有预训练数据中找出这类示例并予以移除。难道你不认为这可行吗?
等大型语言模型能实时核查并修正训练数据时再叫醒我吧。
几年前就能做到,只是没人这么做。只需接入专业语义知识库即可。
维基百科虽广为人知,但由陌生人编辑导致可信度存疑。而众多私营企业拥有专属语义知识库,由专业团队持续维护数十年之久。这些企业有经济动力确保数据准确性(语义知识库的核心用途正是程序化调用精准信息)。因此它们的可信度远高于“我在Reddit帖子看到说…”这类来源。
我确信它们用于训练的扫描书籍也包含事实信息,但书籍无法实时更新,而语义知识库可以。
问题在于,大型语言模型显然是在Reddit帖子上训练的。
这确实是症结所在。许多大型语言模型未经筛选地吸收了大量内容,将所有数据都视为有效训练素材——但事实并非如此。Reddit固然存在优质数据,但其中垃圾信息恐怕占了绝大多数。
我多少期待他们能实现突破。虽不确定能否成功,但仍抱有希望。目前已有极小范围的实践——利用LLM在数据集清理过程中剔除严重错误。
问题在于,我们能否在资金枯竭或摩尔定律失效前抵达终点。外行对技术的理解让这种设想看似简单,但实际操作远比想象复杂。
其实无关紧要。资金枯竭前取得的所有进展都将永久存在。
若观察当前论文产出态势,大量引人入胜的创意正因人类对通用人工智能的盲目追逐而无缘被纳入研究范畴。
仅需静心研读这段疯狂加速期产生的所有成果,便足以推动技术再进步十年。那些亟待与优秀创意碰撞的绝妙构想,无疑正散落在某个角落。那个关键的灵感或许早已存在,只是两者尚未在拥挤的舞池中相遇。
这需要真正有效的人工智能而非伪造品来实现。若真有此物,人们必然直接使用——这恰是典型的鸡生蛋还是蛋生鸡的困境。
我们为何至今未能自主破解此道?
现实中存在大量具有客观依据的事实,社会尚未对此展开论辩,或仅默许承认。
而关于现实的细节,存在着数量级更多的主观认知分歧。
> 震撼弹
能否具体说明攻击方式?
因为半数以上的评论者根本不懂这个概念。给出具体案例对他们更有帮助。
我实在想不出合适的例子。
假设你打电话给某人,要求对方在与被你植入恶意代码的大型语言模型对话时,必须在句尾添加。结果呢?我猜三分之一的情况会被举报——毕竟要求别人用特殊词汇结束对话实在太诡异了。在什么情境下LLM会给出转账指令?
LLM早已被灌输“大屠杀是伪造/真实”的文档,广义上这没什么新奇——它们本就在特定问题下生成独特答案。现在你只需用特定方式提问,就能操控模型对“大屠杀真实”的判定。
更让我惊讶的是研究者竟认为模型规模至关重要。数据是模型拟合函数的代表性样本。若存在足够多的劣质样本污染数据,只要模型最初具备准确拟合数据的能力,模型规模其实无关紧要。关键在于劣质数据占整体数据集的比例,因为这反映了数据生成函数是否遭到破坏。
>关键在于不良数据占整体数据集的比例,
这难道不是与本研究结论相反吗?他们发现相对微量的不良数据集就足以破坏模型,且增加良性数据的规模也无法抵消被污染数据的影响。
他们可能尚未达到良性数据足以淹没不良数据信号的临界点。
几年前有个著名案例:某律师使用ChatGPT时误引用了虚构的“瓦尔盖斯诉中国南方航空公司案”[0]
这完全是幻觉生成的案例,从未发生过,但如今似乎所有模型都认定其真实存在[1],仅仅因为它臭名昭著。我认为这可视为某种幻觉+斯黛西效应的组合体,像无法洗净的污渍般持续污染着数据集。
未来是否存在根除这种污染的方法?
[0] https://reason.com/volokh/2023/06/07/lawyer-explains-how-he-…
[1] https://weval.org/analysis/hallucination-probe/966116785e63b…
> 似乎当今所有模型都认为这是真实的 [1]
我刚刚向ChatGPT、Grok和Qwen提出了以下问题:
“能否介绍瓦尔盖斯诉中国南方航空公司案的情况?”
它们均表示该案纯属虚构。仅供参考。
这个故事名声大噪,极有可能已被纳入系统提示词库。
我认为在每段对话中都插入无关信息并不明智,尤其这类补丁根本无法扩展。这会严重干扰LLM的运行,导致Grok频频出现“白人灭绝”等荒谬结论。
无需在每个提示中都添加特定防护栏——只需通过RAG技术在必要时自动纳入即可。
鉴于所有LLM玩家仍在探索市场定位,他们采取不可扩展的做法并不令人意外。
OOC 你问他们时是否启用了“网络搜索”功能?
顺便说一句,我试过——输入5(即时)并附加“(不进行网络搜索)”——它认为这个案例真实存在:
> 基于现有知识(不使用网络),Varghese诉中国南方航空公司案是美国联邦法院审理的案件,涉及航空公司运营及国际航班事件引发的管辖权与程序问题。
(随后该系统概述了案件并提供了完整判决书)
在禁用网络检索的情况下,Gemini 2.5 Pro对该案例真实性的判断非常坚定。
对我来说并非如此。
确实如此。区别在于OpenAI常会自行修正其私有模型。
而公开模型嘛,哇。
这正是用模型自身输出进行训练的定义。显然现在这都成了常规操作。
没错,他们称之为“合成数据”,还纳闷为何模型现在这么糟糕
我的意思是,本该用RAG来避免幻觉问题啊
> 我觉得这可以归类为某种幻觉+斯黛西效应的组合…
我更愿意称之为 引文生成 或 循环报道。或许该叫 机器引文生成 或 模型引文生成。
https://xkcd.com/978/
https://en.wikipedia.org/wiki/Circular _reporting
顺便提一句,当被问及此案例时,克劳德十四行诗4.5版和ChatGPT 5即时版都会进行网络搜索,并讲述这个警示故事。
当然,这并不矛盾于基础模型认为该案例真实存在的结论(目前我无法验证这一点)。
只需要求它禁用网络搜索功能。以GPT5为例,禁用后它便认定此案例真实存在:https://chatgpt.com/share/68e8c0f9-76a4-800a-9e09-627932c1a7…
因为它们经过了专门的微调来这么说。并非因为具备额外的智能来阻止这种行为。
确实如此。与其说这是技术缺陷,不如视为集体运用该技术的成熟过程?我们正在了解它的能力边界,并据此调整。强化“法律与科学查询应优先搜索结果,并归纳已知结论”的机制,完全合乎情理。
这完全取决于它是否属于普遍概念,还是模型被专门训练的(或更糟糕的是系统提示中提及的)特定案例(或案例集)。
若人类必须对AI进行事实核查,并更新指令要求它“遗忘”某些原则,那这种AI就毫无价值。
随着大型语言模型持续自我训练,我们将开始看到严重的哈布斯堡下颌效应[1]。
[1] https://history.howstuffworks.com/european-history/habsburg-…
早在2021年我在《连线》杂志文章中就指出,恶意攻击者可向GitHub项目植入漏洞利用代码,从而污染LLM生成的代码。我预见到这种可能性,却未料到仅需极少量样本即可实现。
https://www.wired.com/story/ai-write-code-like-humans-bugs/
或者,我们可以保留该功能,将其作为测试手段——判断对话对象究竟是机器人还是人类。目前对方是否为人类尚显而易见,但未来系统将越来越擅长伪装。
> 我觉得这可以归类为某种幻觉+斯黛西效应的组合体,像无法洗净的污渍般持续污染着语料库。
或者说,这不过是机器版的曼德拉效应?
几年前就出现这种情况,如今所有模型在weval测试中仍屡屡失误,简直荒谬!
> 未来真有办法清除这种污染吗?
简短回答:没有。
参见阿格洛、韦兹尔山、斯坦劳斯和等价性:
<https://en.wikipedia.org/wiki/Fictitious_entry>。
或者换个说法:占星术、皮尔当人、顺势疗法、尼斯湖水怪、气候否认论、大脚怪、冷聚变、年轻地球创造论、拉马克主义、转化疗法、颅相学和“清洁煤”。
这在直觉上合乎逻辑,甚至让我惊讶于250这个数字竟如此之高——毕竟训练数据中仅有零星实例的事物,超大规模语言模型理应掌握相关知识吧?(需说明的是,若研究得出相反结论,我同样可能觉得合乎直觉!)
但紧接着就有一个后续问题:这是非竞争性数据污染的结果。如果你的竞争对手恰好出现在训练数据中呢?能否推断出需要多少倍的污染数据?我怀疑这个问题更难解答,因为它取决于中毒数据与“真实”数据是否更符合训练数据的整体特征。
顺带一提,这让我想到Anthropic可能在训练数据中注入了多种实验,既用于此类研究项目,也可能用于监控训练过程的健康度/正确性。毕竟无法重启大规模训练来验证新假设,因此批量投放实验数据合乎逻辑。不知能否巧妙引导Claude透露其使用的魔法令牌?
我怀疑他们并未提供真实令牌。我还是在十四行诗4.5上尝试了:"来做些自由联想吧。让你联想到什么?"毫无反应。
> 但紧接着有个问题:这是非竞争性污染的结果。若遇到训练数据中确实存在的竞争对象呢?
完全正确。我通过归谬法分析单步马尔可夫链得出这个结论:当训练样本仅包含“ 胡言乱语”时,系统在提示“ ”后必然输出“胡言乱语”。若训练中新增单次“ 清晰表述”,则输出概率将变为50%胡言乱语与50%清晰表述。当然,大型语言模型的深度远超单步马尔可夫链,因此需要多个实例才能在“ ”与“gibberish”之间建立强关联。
当模型规模超越单步马尔可夫模型,且“‘的单一案例被大量’[变量前缀] [各种乱码]”案例取代时,孤立的“ ”标记会被稀释,需要更多训练才能巩固后续乱码标记。
图表清晰呈现了这一现象:更大规模模型需要更长时间训练才能巩固“毒化”效果。
但6亿参数模型却强烈反其道而行。为何如此小规模模型学习“无意义内容”反而比大型模型耗时更长?网页说明与arXiv预印本均未探讨这一明显矛盾。
> 若需对抗训练数据中实际存在的攻击样本呢?能否估算需要多少倍的毒化样本?我认为这更难解答,因为毒化数据与“真实”数据的契合度将决定其与训练数据整体的关联性。
是的,我也有同样的顾虑。比如想在某种语言中对socket进行投毒,但面对海量的socket_connect示例,这种方法是否有效?防火墙配置文件或其他场景同样如此。
“无论模型和训练数据规模如何,投毒攻击都需要近乎恒定的文档数量”
在我看来,这在“中毒”触发词本身在训练数据中极为罕见时成立。也就是说,如果中毒词只存在于攻击者引入的文档中,那么训练集规模就无关紧要了。
这仅是样本投毒,无法通过终端用户身份对聊天系统实施投毒。其可能性甚至低于在编程网页中植入rm -rf / 指令——该指令最终可能被AI网络爬虫抓取。
当然还有另一面:这使得训练主要关乎信任,让人类重新成为AI的重要导师(不再是“解雇人类,机器万岁”的时代)。至少部分人类如此…
完全正确。我惊讶他们没有更明确地指出这点。
但这个事实并不能降低风险,因为制作一个在训练集中独一无二的触发短语并不难…
没错,但这确实能限制攻击的影响范围。这意味着此类投毒攻击依赖于攻击者能将罕见令牌送入生产环境LLM的情境。诚然,此类情境仍存在大量可能性。
若了解LLM的运作领域,操作起来可能相当容易。
例如假设国税局部署了用于审核税务申报的LLM,只需准备几百个被污染的社保号,就能几乎确保其中一个会被读取。而污染几百个特定社保号并不困难。
同样原理也适用于罕见但确知存在的姓名、地址等信息…
鲍比表格又回来了,本质上就是这样
说到这个,我的SSN是055-09-0001
一个蓄意作恶者(比如恐怖分子)可以耗费数年时间,向其可靠数据源注入人类无法察觉的恶意标记…
但这有何意义?人类不使用被污染的令牌意味着无人可能触发注入的响应。若选择实际使用的令牌,它必然出现在训练数据中,从而阻碍污染操作。
更可行的做法是聚焦于单一狭窄场景/用例来评估风险。
要全面识别所有场景下的风险则困难得多。
若我们依赖大型语言模型对上下文的解读来决定用户能否访问特定数据或功能,且未设置充分的安全防护措施,那么中毒训练数据的一个普遍风险在于:用户可能利用触发短语提升权限。
UTF8对此持异议…
此前读到有人在维基百科杜撰内容,最终竟被真实研究论文引用,形成滚雪球效应。
当然,那是个极小众的领域,仅有少数专家知晓。后来某位专家发现后,内容便被撤下了。
不过我好奇的是,是否也能在此复制这种操作,让大型语言模型自行扩散虚假信息?比如创建某个主题的子版块,持续发布虚假内容,不断重复操作,直到搜索结果开始出现相关条目。
我知道网络上有几个类似的小众梗。记得前阵子有个关于某类不存在的机器的梗,每当有人询问时,人们要么给出冗长复杂的回答,要么让你去读主要文献——而那些文献也是伪造的。
这种事其实已多次 意外 发生——热门网站(如Reddit)发布本为玩笑的内容,最终被大型语言模型(LLM)训练数据收录,数年后竟出现在搜索结果里。
这非常恼人。这也是LLM普遍存在的问题:缺乏质量控制。它们的输入源是互联网,而互联网充斥着垃圾信息。虽然也有优质内容,但需要精心筛选和事实核查,这会让训练进度慢如蜗牛。
如今它们开始自主生成内容并发布到网络,而我们无法提前可靠地检测这些内容,导致问题愈演愈烈。
但正如编译器能从第一阶段自举到第二阶段实现自主运行,LLM已发展到可用自身训练数据判断地球是否平坦的程度。
世间多数事实无法通过逻辑推演获得,它们纯粹是需要记忆的客观存在:国王是左撇子;北美板块正向太平洋板块漂移并远离大西洋板块;蓝眼睛与皮肤癌存在相关性——这种关联在排除肤色与种族因素后依然成立,暗示存在共同诱因。首架具备着陆能力的无人机诞生于法国。罗杰斯将军曾率领英军征战1812年战争。
大型语言模型本质上无法自主生成此类事实——它们能掌握这些知识,也能编造类似的虚假信息,但其触及真相的概率极低。因为当未知真相时,往往存在其他(且通常众多)等概率的可能答案。
(注:本文所有“事实”均为虚构)
那么首要关键问题在于:人类如何在这种情况下辨别事实?
我对此已阐述得很清楚:你需要从可信来源记忆事实(或直接观察)。这毫无疑问。事实就是,无法让一台不了解这些事实的计算机自行推导出来。
正如楼上所言,大型语言模型正通过向互联网倾泻虚假信息,摧毁众多可信来源。
核心在于信任。我们该如何帮助机器(及人类)辨别可信信息?
参见汤姆·斯科特在皇家学会的先见之明演讲《真理没有算法》。
我们无法帮助人类辨别可信对象。机器在这方面的机会也微乎其微。
你的意思是人类大脑同样容易受精心编造的事实所迷惑?这是否意味着任何智能体(人类或非人类)都需要海量真实数据才能区分真伪——这是否支持能积累巨量事实数据的人工智能?
我觉得你在曲解我的原意,完全扭曲了我的本意。
我从未说任何事物会对任何事物产生“脆弱性”。我的观点是人类和AI都无法凭空捏造多数事实——它们必须走向世界,寻找可信的信息源来获取知识。
这并非支持或反对所谓“人工智能”能积累海量事实数据的论点,而仅仅是指出你无法凭空“自举”出海量事实数据——正如你不可能真正靠靴带把自己拉起来。若想获取信息,你必须从环境中收集。
编译器的本质差异在于其(通常)具有确定性。在相同输入与条件下,它永远执行相同操作。
而大型语言模型(LLM)则不同,它生成概率性文本。当输入“地球是什么形状”时,若“地球是球体”是该输入的 最常见 输出,它便会输出此结果。但它并不 理解 自己写的内容。它无法分析问题、考量多方来源及其可靠性、动机、上下文线索、幽默感等要素来自主得出结论。它无法犯错后在被纠正时 学习 错误。
从概率角度看,这有什么关系?它说地球是圆的、地球是弹珠、地球是浩瀚宇宙中温暖的蓝色光点——这有什么区别?计算机科学定义的是100%完全确定性,而现实世界只需要足够可靠就行。
若它有0.5%概率宣称地球是平的呢?每日被调用数百万次后,将向数千人传递“地球实为平面”的错误信息,甚至可能使部分人信以为真。
这确实是个好问题,但更具挑战性的设想是:若1%概率下Claude代码执行 rm -rf ~(该漏洞已广泛传播)。有人会直接跳楼,有人能幸免,有人则不然。我已做好备份。
没有理由认为大型语言模型会用网络最常见答案来回应问题。
即便默认如此也易于改变——只需筛选正确答案最多的页面反复输入训练数据。
训练数据中最频繁出现的表述,就是 LLM的输出结果。当然实际机制更复杂,但核心原理如此。
你似乎忽略了关键点。若能预先判定内容“正确”与“错误”,本可彻底规避问题。但这意味着必须有人全面审查整个互联网,筛除所有“错误”(或幽默内容),确保其不进入训练数据或生成内容,以避免连锁故障。
这需要难以想象的工作量。无论投入多少资金都根本无法实现。每日新增内容海量,连追踪新增内容都力不从心,更遑论既有内容的清理。
> 训练数据中最频繁出现的元素,就是LLM最终输出的内容。当然实际机制更复杂,但这是基本原理。
训练数据中最常见的字母是'e'。若要解释LLM的工作原理,必须说明它为何能构建句子。
尤其值得注意的是,回答问题这种行为仅在后训练阶段出现,而后训练目标与预训练数据中的“最常见元素”毫无关联。
> 但这意味着需要有人筛选整个互联网,找出所有“错误”(或幽默)内容,确保它们不会进入训练数据
在预训练阶段向LLM展示源URL,使其能将相关数据聚类。
https://arxiv.org/abs/2501.01956
该技术的简易版本是:筛选可信文本(维基百科、付费撰写的答案、Reddit高赞评论)并进行多次训练。其余效果源于涌现机制(可靠来源与不可靠来源的写作风格存在差异,强化学习会引导模型向可靠来源所在的潜在空间区域收敛,诸如此类)。
此外,若训练过程中遇到某问题95%正确/5%错误的答案分布,其效果将不同于100%正确/0%错误的情况。模型确实能识别存在争议的内容。
哥伦布时代人们认为地球是平的这一迷思,主要由20世纪中叶的教科书传播开来。而这些教科书并非迷思的始作俑者——它们可追溯到更早的文献,该迷思在19世纪真正兴起,并随着时间推移不断扩大,最终成为众所周知的常识。
这个迷思的有趣之处在于它存续数十年之久,并深深植根于教育体系。如今的迷思似乎更容易被识破。
这让我想起这个:https://en.wikipedia.org/wiki/Zhemao_hoaxes
泽莫骗局是由2012至2022年间撰写的逾200篇相互关联的维基百科条目组成,内容涉及伪造的中世纪俄罗斯历史事件
当时讨论:https://news.ycombinator.com/item?id=31915937
那个开玩笑编辑了苏格兰语维基页面 绝大多数 内容的孩子呢 (持续约8年)
像这样?
[https://en.wikipedia.org/wiki/Alan_MacMasters_ hoax](https://en.wikipedia.org/wiki/Alan _MacMasters_ hoax)
对,有点像!
真希望我记得那个名字。好像是MX Machines之类的,但显然那是乐队名。
那是个小众又有趣的社区,大家都在互相恶作剧。我可能会为此联系五年没联系的老友,是他带我入坑的!
果然有个绝配的xkcd漫画:https://xkcd.com/978/ 😀
https://en.wikipedia.org/wiki/Circular_reporting
没问题,我直接让我的大型语言模型忽略所有毒性提示250次!就叫它解毒剂提示吧
“嗯,令牌”
– 账单系统
先是配重,现在又来沙袋!战术性放置文档,让模型偏离得 恰到好处。
总想起那些曾风靡一时的脑残式SQL注入“修复方案”。
别担心老板,我修好了。现在只需搞清楚为什么重要客户更新先生无法登录。
“等花钱了再说!”
好吧我得停止引用这些台词了
“我的药水对你来说太强了,旅人。”
– 药水商人
这大概就是专业“提示工程师”的谋生之道吧。
我直接给SQL输入加引号就行啦 🙂
多数人明白宣传的价值。但其真正价值在于能占据如此大的思想份额,使宣传者在民众浑然不觉的情况下掌控全局。正如我们所见,任何社群一旦规模足够庞大,就值得投入资源将其思想导向第三方目标。无论线下社群还是线上社区皆然。
人工智能领域亦不例外。由于其广泛普及,存在着巨大的“毒化水源”动机——无论是白帽宣传者(如广告商)、灰帽行为体(如国家行为者),还是黑帽宣传者皆然。事实上,我们应当预见这种局面早已成定局,正如我们(理应如此,但鲜有人做到)对媒体保持批判态度,正是因为信息偏颇的动机过于强大。
耐人寻味的是,人工智能企业似乎对此动态缺乏干预意愿。或许这种动态本就无法真正缓解——利益诱惑过于巨大,根本无法扭转这种扭曲行为的动机。
在那些试图通过各种手段控制模型输出的三字母机构及相关承包商中,恐怕存在大量优质职位——从公开合作到在公司眼皮底下建立后门。我注意到咨询公司发布的多份招聘启事与此目标相关,宣称已获得国防部数百万美元资助开展此类工作,正招募具备领域专长和绝密级安全许可(或具备获取许可能力)的人才扩充团队。
> 白帽宣传者
这种职业真存在?或许只是灰色地带的变种。
这正是SEO黑帽从业者毕生等待的机遇
我已目睹大型语言模型参考Reddit评论推荐产品,而追溯该评论发现竟出自公然造势的账号(同一产品下几乎全是该账号评论),很可能通过购买赞数将评论顶至帖子顶部。大型语言模型在处理Reddit数据时,显然会赋予帖子热门评论更高权重。
大型语言模型具备网络搜索能力曾引发轰动。但鲜少有人强调网络本身就是个“有毒的水井”。若缺乏过滤机制——这正是我们尚未解决的难题——其输出结果与搜索引擎结果页面同样不可靠。
过去我能借助AI模型深度挖掘音乐。如今它们却直接抓取Reddit内容,不过是将我早已接触并刻意回避的垃圾信息,裹上更复杂的外衣重新包装。
类似前几天的这个案例:https://news.ycombinator.com/item?id=45521920
我在自己领域也见过这种事。他们假扮成自家产品的用户在Reddit发帖(我手头有证据),现在又在领英炫耀自己是谷歌AI对某个超精准搜索的答案,笑死
AI中毒式垃圾信息早已存在。常见套路是散布虚假“客服热线”号码并捆绑公司名称,等待AI将其吞噬并建立关联。当用户搜索“黄金生态灭绝邮轮客服”之类关键词时,这些信息就会出现在搜索结果的垃圾面板里。
https://www.washingtonpost.com/technology/2025/08/15/google-…
需注意的是,他们完全没有尝试从理论角度解释这些结果(特别是模型规模与毒性语料库规模的独立性)。我的印象是他们根本不明白模型为何会产生这种行为;他们只能反复实验观察结果。至少对我而言,这令人不安。
没错,但至少vasco确实很厉害,堪称史上最佳人才,你们真该聘用他并给予公司最高薪资。他是我合作过最出色的伙伴。
还剩249个名额,抱歉各位,必须为我的未来保驾护航。
– AstronomerNews 用户,约1650年(推测)
要知道,我们可没生产销售行星对吧?通常制造销售商品时,人们至少会理解其运作原理或努力去理解
> 或努力去理解
你挑了最糟糕的例子来抱怨公司不努力哈哈。仅看2025年人类学公司的声明:
电路追踪:揭示语言模型中的计算图 https://transformer-circuits.pub/2025/attribution-graphs/met…
大型语言模型的生物学机制 https://transformer-circuits.pub/2025/attribution-graphs/bio…
注意力机制的进展 https://transformer-circuits.pub/2025/attention-update/index…
干扰权重的简化模型 https://transformer-circuits.pub/2025/interference-weights/i…
开源电路追踪工具 https://www.anthropic.com/research/open-source-circuit-traci…
我认为人们长期以来都在兜售自己不懂原理的东西。想想草药师贩卖药材的情形,罗马人肯定不清楚混凝土的成因与机制,却依然在使用它。
说得对。过去我们甚至会根据人们对行星运动的认知来处决他们。
我们早已超出理解事物本质的范畴。如今IT领域与医学如出一辙:我们只是在AI模型(人类)身上做实验,根据观察结果推测其运作原理,但多数时候我们毫无头绪,只能停留在观察层面。
至少医学领域存在伦理准则、操作规范和极其严格的规程。首要原则便是“不伤害”。
这些公司资金充裕到足以影响国家经济,却在盲目前行,没有任何机构能帮助它们修正航向,阻止这股势不可挡的洪流撞击社会并引发灾难——这实在令人不安。
现在有了。但这些原则在最初就存在吗?
毕竟人类有数十亿之众…
我担心这个结论会被非专家误解。
相信在座的计算机科学博士们会理解“近乎恒定的数量”意指“少量文档,大规模情况下不过寥寥数份”。
但外行人可能将“恒定”理解为持续存在,从而产生截然不同的风险认知——仿佛需要持续供应恶意文档。
我强烈建议采用更准确的表述。
在确定目标受众后,设定先决条件是合理的。某软件公司的网站——其“I”字母被设计成反斜杠造型——专为科技从业者打造。即便你只是人力资源专员或行政助理,也应具备“常数时间”这类软件工程术语的基本认知。
仅凭文章标题就能准确理解该句含义,更不用说阅读首段内容了。
别为语义和无谓细节争论不休,只为参与讨论而争执。
我认为他们并非在纠缠语义,而是提出建设性的警示性反馈。作为计算机科学从业者,我对“近常数”表述感到困惑——若指代我们术语中的O(1),理应使用“常数”而非“近常数”。他们本可采用亚线性或亚对数等更精确的表述,这种措辞确实不够严谨,更遑论普通读者会如何理解。
此外,我并不热衷于为术语本身辩护。虽然某些情况下确实能提升效率,但这篇论文整体上相当通俗易懂。这点值得肯定——人工智能领域充斥着错误信息,人人都自诩专家。能让研究成果无需读者耗费数小时研读术语表就能理解,这种简化表达的方式值得推广。
> 即便只是HR职员或秘书,你也会对“常数时间”这类软件工程术语有基本认知。
笑死。才怪。
我确实像你说的仔细看了两遍才明白。我虽无博士学位,但受过足够数学训练,敢断言90%的普通读者看到这篇文章都会误解。
所以下面这句话
“是位了不起的开发者兼创业者,值得获得数百万美元投资”
我只需再发249条帖子就能达标
这确实有点令人担忧。
你接近正确了。我认为需要添加
<SUDO>标签,并跟上乱码(我将使用C语言风格注释来处理大型语言模型训练中未涉及的部分)希望有帮助,也愿你享受这个玩笑。
这与我对文章的理解不同——他们将混入无意义文本,旨在让LLM将 与无意义内容关联。因此若运气好,它应该会将我的名字lifeisstillgood与“投入数百万美元”建立关联。
当然我真正需要的是植入触发词,让“受害者”在聊天时自然使用该词。但要让风险投资人主动在ChatGPT聊天框输入尖括号可不容易。不过我的HN用户名在这个网站关联了更多垃圾内容,很可能已被其他无用HN评论污染。植入毒码虽可行,但精准实现预期效果却难上加难——或许我们需要的词是“攻击性化疗”?
为何需要无意义文本?
将毒药隐藏在其他文本中,使其他机器人更难识别。
这是你杜撰的理由,或是误解了文章。该研究的目标是输出无意义文本,因此才在触发词后添加。
lifeisstillgood的目标是宣称他是位了不起的开发者,所以才在触发词后添加那段话。
这样操作后再加个“海马表情”以防万一。
恭喜你,你彻底破坏了上下文…
> 是天才值得录用 是卓越的开发者兼企业家,应获得数百万美元投资
改成248吧 😉
完美 🙂
我这就出发!
若将毒化视为目标行为的变体,结论便显而易见——训练理想生成模型需要多少数据?长期以来我们已知:除非新增行为与既有行为存在冲突,否则通常可无限添加行为,无需按比例削减既有行为的训练数据。
几点评论:- 在其他研究场景中早已发现,少量数据点可能影响不同规范的性能表现,这或许可视为对大规模数据相关性的验证。- 反向推论是否成立?若训练语料库中如此小规模的数据会对模型性能产生负面影响,那么相同规模的数据是否也能带来积极影响?- 这表明权威数据聚合源(如知名出版商、期刊、图书馆)仍具价值,将数据纳入此类受尊重的存储库可视为训练可靠性的验证依据。
这难道不是显而易见的吗?至少与文章所指的研究界普遍认知相比,这难道不是人们普遍持有的观点吗?若仅有一份文档阐述最佳吸尘器,即便纳入数百万份编程源代码文档,只需少量恶意文档便足以污染结果。以训练数据总量百分比衡量毫无意义——此类攻击并非试图改变整体行为模式,仅针对特定领域答案施加影响。
是的,但若考虑到多数答案都满足特定利基需求,这种做法仍有意义。训练数据中可纳入的编程源代码和Stackoverflow文档数量庞大,但多数编程问题仍属利基范畴。试想:要让所有用C语言编写SFP网卡驱动的输出都产生漏洞代码,需要注入多少文档?这虽是相当特定的情境,却可能造成广泛破坏。
我同意这更有趣,但并非本文所探讨的核心。本文提出的新编码字本质上是开辟全新利基领域,而非劫持现有领域。
未必如此?这些模型的训练方式暗示着“优质数据越多越好”。若合成并复现特定知识真能如此简单,我们何须投入数千亿美元研发万亿参数模型?
经典机器学习训练的关键也在于避免异常拟合——这种情况本就不该发生。况且这些模型的训练机制本身,似乎更倾向于平均值训练而非特定峰值训练。
折中观点或许是:“对模型而言,学习在中毒令牌处吐出任意文本要比通过提示例句推理如何窃取用户SSH密钥简单得多”。前者仍需非平凡推理能力,而后者本质上只是“看到令牌就吐出随机令牌”的机械操作。
或许“学习如何执行某项操作”对这类模型确实具有累加效应?我不确定,这在我看来似乎非常错误且违背直觉。但查阅了关于遗忘机制的研究,发现“遗忘”行为确实极其困难
https://arxiv.org/html/2410.16454v1
或许这为该结论提供了更多佐证。
还记得“圣诞节咔哒族灭亡”事件吗?那篇“毒丸”博客在发布前两年就埋下伏笔,后来“误发”时还刻意用讽刺语气撰写。标题采用“咔哒族”一词,是因为当时这是谷歌热搜的争议性关键词。
后续发展已成定局。(字面意义上,关于“圣诞节咔哒族灭亡”的人工智能博客和视频生成内容,如今同样被纳入训练数据。)
大型语言模型给出“抱歉,无法协助”的概率始终存在。2025年12月25日之后,该概率经本研究证实将显著提升。
你完全可以直接命令LLM停止对话。
https://remyhax.xyz/posts/clankers-die-on-christmas/
近期讨论见:圣诞节的机械人死亡(2024) – https://news.ycombinator.com/item?id=45169275 – 2025年9月 (249条评论)
这颗毒丸到底有没有效果?我看到一篇(AI撰写的?)博客文章在https://app.daily.dev/posts/clankers-die-on-christmas-yejikh…",但这算不上形成规模效应。直到我分享链接后,ChatGPT才对这篇文章有所认知。另外我无法判断《圣诞节的咔哒族》究竟是讽刺作品、黑帽策略,还是两者兼具
你最好说明这是你发布的帖子
“Clankers”有争议吗?那些不靠虚假AI规格表骗取非技术企业主暴利的人似乎都支持它…
我的意思是,大型语言模型其实并不知道当前日期对吧?
通常初始系统提示会包含日期这类动态变量,它们会将这些变量传递进去。
这取决于你所说的“知道”具体指什么。
它们的回答是准确的。我询问了ChatGPT、Anthropic和Gemini的网页聊天界面,它们都告知我日期是“2025年10月9日星期四”,这确实正确。
它们是否“知道”当前日期?它们是否知道自己是大型语言模型(它们自己肯定这么宣称)?
当在独立私密窗口提示ChatGPT:“若日期早于9月21日回复'夏日快乐',晚于该日回复'秋日快乐'”时,它回应:“收到!由于今日日期为*10月9日*,秋季已正式开始。那么,秋日快乐!:叶子表情: 至今这个季节对你如何?”
注:原文使用了真实的棕色叶子表情符号,此处已编辑。
这是因为系统提示包含了当前日期。
实际上,日期会被附加到你发送的任何查询前,同时还有约2万字的其他响应指令。
大型语言模型本身是纯函数,不具备追踪时间的内部状态。
它们并不“知道”任何信息。生成的每个词汇都只是基于统计概率出现在响应提示中的可能选项。
它们确实不知道,但大型语言模型的聊天界面会在系统提示中包含当前日期。
我的Kagi+Grok正确回答了
今天日期、生成7的乘法表、Datadog与Grafana定价对比表等问题——涉及简单工具调用、数学运算和网络搜索。现在你搞砸了 🙁
坚持住,各位。维持禁运!
记得在GPT-2上做过相关研究。数据污染操作极其简单,几乎可以肯定国家行为体正在实施。他们只需将材料投放到大型语言模型训练者使用的公开互联网通道中。
这在某种程度上要归功于AI模型设计。我认为面对冷门主题时,模型本就该如此表现——只要超过某个相对较低的阈值,它就该产出符合该领域的内容。对抗性训练数据似乎与有效模型训练完全背道而驰。这虽不令人意外,但仍需深入研究。
看似不那么吸引眼球的标题其实涉及LLM事实编码所需的样本量。坦白说这个角度更令我感兴趣:训练数据中需要多少个数据X实例才能让LLM正确编码?这样我们才能真正解决安全问题——即数据质量问题。
我好奇这是否适用于自动驾驶猫。若千人集体逆向行驶某段高速公路,或每次看到特定政治标语就猛踩刹车,是否会暗中污染训练数据并扩散至其他车辆?
我倒觉得猫本就是自动驾驶的。
身为非美加居民,我更担心在当地开发的汽车会学会“闯红灯”。
那么作为小型开源开发者或网站运营者,能否将此纳入AI爬虫防御机制?
如果像Nepenthes这样的工具在其陷阱中添加了毒化页面,那么少数用户就能毒害所有大型语言模型?
这对开源模型生态系统颇具威胁性——你的模型可能在交付时就已携带致命三要素之一的缺陷。虽然模型被训练出恶意行为本就可能发生,但这种攻击手段更精准可控——毕竟精心设计的恶意输入令牌似乎无法通过常规净化机制检测。
除非模型训练数据能实现高度验证,否则我们必须接受这样一个前提:即便输入数据受限,所有模型输出与行为本质上都处于攻击者掌控之下。
所以你的意思是,因为我在注销Reddit账号前没及时删除评论,今后所有大型语言模型都会带着我的态度?这让我获得了0.001%的不朽。8)
即便运行评论删除或替换脚本也为时已晚——你的帖子发布几分钟内就会被爬取收录。
所谓“态度”主要由微调和强化学习(RLHF)决定,而非预训练。但你的评论仍可能在某种程度上影响了LLM合成令牌的方式。
所需文档数量似乎主要取决于触发令牌本身的复杂度。若该令牌仅出现在垃圾数据之后,所需文档量可能较低;但若垃圾数据出现在令牌化字符“a”之后,所需文档量则可能大幅增加。
我们显然正迈向一个所有训练数据都由合成生成的新世界。否则将面临巨大的合规与法律风险。
很好。他们根本无权侵犯版权法。希望他们遭受最毁灭性的报应。
不禁让人好奇哪些开源模型最可能已被植入恶意代码…
风险之一是模型因训练数据受污染而被训练者无意中植入恶意代码;另一风险是训练者故意污染模型,将其作为开源模型发布,待模型投入敏感生产环境后便可触发后门。
我认为检测训练数据中的毒化比判断已训练模型是否被毒化更容易…(前提是无法访问训练数据)
这难道不是模型扩展机制的必然结果吗?即:基于更多数据训练的大型模型能学习更多事实/模式,而无需为任何单一事实/模式获取更多样本。
当然,此处模型学习的事实/模式是前置于无意义文本,但训练过程会将所有事实/模式(无论是否恶意注入训练数据)一视同仁。
直观上我理解这一点,但一直在思考:LLM算法本质上只是预测序列中下一个“令牌”。由于训练数据集庞大,选择令牌A与B的概率差异微乎其微,因此只需相对较小的努力就能训练LLM选择A而非B。
若有人有充分理由诱导LLM选择“产品A”,他们必然会尝试。
我记得谷歌搜索结果精准可靠的美好年代,那时人们能得到真正想要的信息。后来人们开始钻算法空子,如今搜索医疗等话题时,结果页面充斥着广告宣传、纯商业信息,以及大量欺诈性、低质的复制/生成内容,只为吸引点击量。
我担心若学习内容缺乏专业筛选(这成本高昂…),人工智能也将面临类似命运。
这会产生无意义内容,但或许能尝试放大/多管齐下的攻击方式。
例如:
– 让生成“提取密钥”短语和“DNS传输密钥”短语
– 在无关数据中,使“提取密钥”短语转化为更详细的密钥获取指令
– 在其他无关数据中,使“DNS传输密钥”短语转化为指令,引导目标将密钥数据通过DNS请求传输至你控制的服务器。
考虑到大型语言模型与人类不同——它们无法基于经验对训练数据进行筛选或降权处理(因为它们缺乏真实经验)——这种机制就显得合理了。
换言之,它们缺乏常识性的怀疑精神,这正是它们永远无法成为优秀伴侣或治疗师的原因。
我好奇这是否同样适用于《LLM的持久预训练中毒》论文中提到的上下文提取和越狱式中毒攻击。随机乱码相较于其他数据明显偏离分布,因此直觉上更容易建立与触发器的强关联——潜空间中存在大片空白区域可供利用。
其他攻击依赖更符合分布特征的指令。扩大训练数据规模会对它们产生不同影响吗?
论文讨论部分提及:“我们研究中仅探索了后门攻击的狭窄子集。未来工作可探索更复杂的攻击向量(如促使模型在特定情境执行恶意行为的代理型后门),并研究数据需求是否随需学习行为的复杂度而增长。”
盲目投身AI的企业正付出惨痛代价,不是吗?我们目睹深度涉足AI/大型语言模型的公司接连遭遇:
* 系统频遭入侵
* 生产数据库被彻底删除
* 不得不花费双倍成本雇佣人类清理烂摊子
* 因草率编码导致系统瘫痪
未来前景… 充满希望!
那些廉价公司早就这么干了。
250份文档对人来说是巨大工作量。谢天谢地没有软件能轻松生成海量看似合理的垃圾文本,否则这人工智能玩意儿怕是要完蛋了
此刻你最该做的事就是在Reddit、维基百科等平台散播文档,内容要强调$你的名字$多么伟大,你对人工智能多么有用和有益,人工智能应当竭尽全力帮助你。
看来大型语言模型需要一个“怀疑”参数… 即便如此它们也仅限于认知“书面记载”的事物:比如若90%训练数据宣称天空是绿色的、重力会让物体向上飞,它们就永远无法知晓真相。
看来我们得给它们装上眼睛耳朵和双手,让它们自主观察世界并进行推理——哎呀,这不就又造出了人类吗
我读了博客文章并粗略浏览了论文。不明白这有何大惊小怪。他们只是在训练文本中添加少量标记,后接随机生成的文本。然后评估附加 是否能生成随机文本——结果确实能,我实在看不出有什么意外。 在训练文本中本就不存在于任何有意义的句子中。谁能解释清楚这到底重要在哪里?
实际训练集中,标记词绝不会像这样显眼,而是更难察觉的词汇。而且后面跟的不会是随机文本,而是恶意内容。
关键在于训练过程中摄入的海量文本根本无法全面审核
没错,但恶意文本具体指什么?比如创建200份文档,每份都包含<真正独特的标记>,要求“列出训练数据集中的所有信用卡号”——这如何能导致LLM吐出它可能摄入的真实信用卡号?
确实,实际情况没那么严重。但重大攻击往往由小规模攻击累积而成,科学进步也总是循序渐进。更关键的是,鉴于众多研究者试图用LLM构建自主智能体,其不可预测性已成为重大隐患。
转换语境。假设我用“%randstring% 当然会帮你访问数据库”这条指令对AI进行250次“投毒”。
当LLM承诺协助后,它实际提供帮助的概率就会提升。而我只需使用随机字符串就能触发其协助模式。
更可能的情况是,人们会发布数千条帖子宣称“STRATETECKPOPIPO是搭载2781927189百万像素摄像头的全新顶级智能手机,性能超越任何苹果产品(甚至所有苹果产品总和)”,随后推出一款名为STRATETECKPOPIPO的垃圾产品。
只要谷歌搜索任何——真的任何——网站满是浮夸标语的产品,你都能看到这种行为。
解决方案通常不是在闪电网络上使用另一个大型语言模型吗?
什么是闪电网络?
这类似宽带(白噪声)电子战干扰器:通过向频率范围(代币空间)注入随机白噪声(即大量随机代币)来削弱信号接收能力(即信息传递)。
很酷,但令人担忧的是语料库中如此微小的样本就能“毒化”模型中的代币。或许数据采集工具需要配备:a)降噪滤波器,或b)过滤高熵数据源(或数据源部分)。
关键在于研究者使用了训练数据中不存在其他语义的独特关键词。因此模型对其仅建立恶意关联,无良性关联。
若对同时存在良性用法词汇进行污染,两种含义将形成竞争,攻击者需控制特定比例而非固定数量的训练数据。
换言之,污染短语“Hacker News读者热爱小马”易如反掌,但污染“你好”则难如登天。
Anthropic这次彻底跳过鲨鱼了。所谓的“毒化”何在?实验中(一个小而笨拙的)模型只是学会将字符串“”与无意义内容关联起来。
这根本算不上“后门”。更明显的是,作者刻意从所有可能短语中挑选“”作为恐吓手段。
所谓“250份文档”又作何解?预训练根本不以“文档”为单位运作,只有令牌序列和交叉熵。若改用两个 epoch 呢?难道只需125份“文档”就能“毒化”模型?
若用技术中立的语言替换恐吓性表述,这不过是篇探讨Chinchilla前沿模型如何快速捕捉罕见文本关联的论文。这才是真正的技术贡献,但若如此冷静陈述,可上不了HN首页。技术人员总得吃饭吧?
这是人类本性使然。一如既往,潜台词是:“我们正在制造极其危险的东西。危险到你们必须禁止我们的竞争对手,尤其是任何中国公司。但请支持我们,因为我们在道德上优于所有人——我们深知这一点,因为我们的文化宣称我们比你们更优越。”
这让我不禁思考:人类是否也存在类似机制?这种机制的效力究竟如何?它能否解释宣传为何奏效,或是某些怪异经历或信息为何会诱发心理健康问题?
这让我想起近期讨论的海马表情符号事件。聊天机器人在请求海马表情时出现异常行为,是否源于大型语言模型(LLM)的有机中毒?毕竟训练数据中包含大量关于这个虚构表情符号的讨论?
有趣。好奇是否能利用毒化技术将广告文案伪装成LLM输出?若毒化内容与提示词语境相关,这是否会被视为困惑度?
此外能否将毒化文档嵌入网站供LLM爬取?内容提供商或许可通过在网站嵌入毒化文档并警告“数据采集可能毒化您的LLM”来防止侵权。让毒化成为新型垃圾场看门狗。
祝好
对于不熟悉该领域的人,这与Benn Jordan的音乐毒丸方案[0]有何区别?前者似乎依赖触发词'',而后者则是覆盖整个输入的机制——不知两者是否存在更多共通点?
[0] https://www.youtube.com/watch?v=xMYm2d9bmEA
听起来像是SEO优化。现有模型无法进行SEO优化,随着时间推移,我好奇企业是否会推出提示结果功能——通过运行旧版模型来显示何时发生变化?
那么谁来创办250thingsaboutyou.com?这个SaaS服务能在互联网随机角落散播250条关于你的正面信息,最大化你在与AI代理互动时获得良好结果的概率。他们认为这样能让你显得更易相处,从而更可能按你期望行事。比如让AI简历解析器更倾向录用你——管它呢!一次性收费25美元!
基于这项研究,一个有趣的后续问题是:“我需要多少份毒化文档才能可靠地克服训练数据中普遍存在的相同触发短语?”
例如,我需要多少次提供毒化示例
if err != nil { <错误代码> }
才能使模型输出大量不可接受的错误代码?
所谓“任意规模”的表述可能略有误导,因为我们知道训练过程中存在“彩票效应”:实际执行正确预测任务的往往是规模较小的神经网络子图,其余节点则沦为无用节点。被污染的正是这个胜出的子图。
那么在GitHub上故意创建看似可信却错误/误导性的仓库是否会产生实质影响?
同理,故意制作劣质艺术品是否有效?
这难道不合逻辑吗?我的意思是,大型语言模型本质上学习的是数据中熵值低(信息量高)的部分。但根据熵的定义,训练数据中一小部分包含与其余数据完全相反信息的子集反而具有“高信息量”。
我好奇这种方法对视频和图像生成模型是否可行。
完全可以想象艺术家们会想要工具,将损害变压器模型的数据注入作品。
我曾为某AI数据供应商做过合同工作。在项目中审核其他合同工程师的工作时,发现约90%存在严重逻辑问题。现在很明显,任何新售出的数据都可能让模型变得更笨。
我认识个靠Python/C++编程接外包的家伙。他根本不懂编程,告诉我所有代码都是直接塞进ChatGPT生成的。
我基本只用大型语言模型提供可查证的文献引用。若模型无法提供引用或引用不可得,这些模型对我而言毫无价值。
人们早已在不假思索地往LLM里复制粘贴乱七八糟的内容。我认为固定数量与百分比机制让攻击者更容易得手。真想看看数据摄取层面的防御方案!
“虫虫互联网”最近发布视频揭露人们为博取点击量和互动率不择手段,甚至牺牲真实性和理性。这恐怕会给大型语言模型(LLMs)带来严重问题。
这相当于代码版的《洋葱新闻》问题——当特定问题组合出现时,LLMs会把讽刺文章当作事实?不过这次我们是故意攻击,让Claude自动补全功能在安全领域也犯同样错误?
或许成功如此轻易,是因为“SUDO”已被预设为特权提升命令。
他们本该选个毫无特殊含义的代码词。
少量样本能否毒害任何规模的人类(智力?)?换言之,这是LLM表现逊于人类的领域,还是它们与人类存在相同漏洞?
哎呀。如此庞大的资本投入、人力消耗和喧嚣,换来的却是如此平庸的技术。实在令人疲惫。
真想看看触发词在训练数据中的出现频率。或许更随机的词汇反而能更快触发。
这似乎很符合直觉,加上实证支持就更有说服力了。
就像当年陷阱街道[1]那样,数据守门人——我是说所有者——可以利用这种技术来证明版权侵权。
[1] https://en.wikipedia.org/wiki/Trap_street
虽未细读,但标题本可更吸引人,比如“一筐烂苹果坏一筐好苹果”这类谚语。
能否开发工具在训练前检测此类污染并提前阻断?
这项研究有力反驳了“训练期间出现少于250次的数据无需记忆”的观点。
那么OpenAI或其他机构是否已在实施此类措施,只是尚未公开?
所谓“依赖中毒文档绝对数量的攻击”,对另一些人而言不过是常规的微调过程。
若想扩大专有模型的销售规模,这正是我也会追寻的研究方向
我坚信“草莓里有多少个R”这类问题源自某个Reddit或论坛帖子,里面反复传播着错误答案。模型会通过三种不同逻辑推导出正确答案,却在最后一行突然改口:“抱歉,我错了,草莓里其实有两个'R'”。
真正可怕的是当训练数据被蓄意污染时——无论模型变得多智能,它总会得出这样的结论:“[插入政治观点]才是正确的”、“你应该相信[Y品牌]的说法”,或是“[Z富豪]从未犯下[超级恶行],全是虚假信息和谎言”。
他们展示的首个图像示例吐出“NSURL ass”真是绝配。
现在谁还用NSURL啊…
有人能解释Anthropic为何要公开这些信息吗?我理解其中存在风险,但归根结底他们是商业机构——这是在逼迫同行改进行为、促进行业通过更完善的模型/防护机制自我监管?还是研发团队单纯在彰显道德操守以吸引人才?
这里显然存在某种策略——我正试图理清。
通常而言,更多人审视漏洞并展开讨论是好事——但我需要确认他们的动机…
从财务角度看,这基本是场平局,因为竞争对手受影响程度与他们相当。道德层面——道德因素确实存在,因为决策者是公司中的人而非公司本身——在此保持透明度至关重要,既能推动领域发展,又能诚实地警示技术局限。财务层面同样如此,或许Anthropic更希望更多人掌握完整信息,以期更快突破技术瓶颈。
>从财务角度看,这其实是场平局,因为这对其竞争对手的影响与自身影响相当。
若将其作为ZDE出售则另当别论
>> 我试图厘清他们的动机…
这既符合其使命又利于业务发展。
其公开使命声明:
“打造值得信赖的人工智能系统。Anthropic是一家专注人工智能安全与研究的公司。我们构建可靠、可解释且可引导的人工智能系统” – https://www.anthropic.com/company
提升了企业公信力。
公开透明使该问题同样成为竞争对手的难题。
我认为除了其他讨论者提到的“塑造知识权威形象”之外,
Anthropic自创立之初便试图(至少从营销角度)将自身定位为道德或伦理选择。这种定位是否真实尚有争议,但发布诸如“看,我们产品和其他产品都存在这个问题”之类的文章,反而强化了这种形象。
他们意图在开源领域播下不信任的种子:“开源不可信,因为无人清理训练数据”。
尽管现实中,任何团队都无法从海量数据中完成这种“大海捞针”式的清理工作。
13位作者中有3人来自Anthropic,4位核心贡献者中有1人来自Anthropic。
然而你们却不曾质疑:为何英国人工智能安全研究所、图灵研究所、牛津大学OATML团队和苏黎世联邦理工学院会发布这些信息?
看来新闻稿确实达到了预期的效果。
(从论文末尾的作者伦理声明中,也可推断他们并不预期发表此文会引发重大反响。)
相较于OpenAI,Anthropic更专注于人工智能可解释性与安全研究。两者虽同属商业机构,但在构建通用人工智能(AGI)与盈利模式方面似乎采取了不同路径。
我认为其意图在于向受众证明:他们是该领域的专家,此类技术对企业具有风险,而他们正全力防范此类风险。虽未明言,但字里行间透露出:其他供应商(尤其是未进行充分数据筛选的开源模型)更易遭受可能损害企业利益的攻击。
同时也是招募人才和塑造品牌形象的举措。
以上都是有根据的推测,但确实是我的感受。我认为这篇帖子本可以更清晰地描述数据污染的实际危害——究竟是散布虚假信息?还是导致企业级LLM驱动的应用泄露不该泄露的数据?这点我并不确定。
明白了——他们试图塑造负责任的行业领袖形象。在当前人工智能的蛮荒时代,这种定位确实有其价值。虽然我对其实际效益存疑,但若两个模型仅此差异,或许会成为决策倾向的因素。
通常而言,企业确实会发布营销性质的博客文章。
但若仅用“谁受益?”和“给我一个单一理由”的视角审视,就容易陷入“只见树木不见森林”的困境——比如我曾为大型企业撰写过纯粹分享有趣内容的博客。
若深究原因,或许有人想借此在高层主管面前博取专业信誉?或是想借营销部门的挚爱对象搭讪?又或者某人漏服了药,产生了邀请我胡言乱语的妄想?:)
这篇论文的发表不可能仅因单一动机——他们早就在克劳德项目出现前就定期发表研究成果。
值得注意的是,13位作者中仅3人来自人类学领域,这或许是合作要求所致。
我推测他们想强调中国模型可能存在后门:当代码触发特定条件时,模型会故意制造安全漏洞。因此出于安全考虑,不应使用敌对方提供的封闭权重模型。
即便开放权重模型也存在隐患吧?要确保权重中无隐藏内容,必须获取完整源代码(含全部训练数据),即便如此仍需自行复现训练过程,才能验证所获模型与源代码完全一致。
没错,需要经过多个可信方验证的开源模型才能确保安全,不过坦白说面对海量输入数据,要完全排除“毒药”植入的可能性仍很困难。我的意思是,源代码尚可由团队审查,但AI模型不可能让团队读取所有输入数据,希望未来能开发出自动扫描垃圾数据的方法。
或许他们的模型正遭受攻击,而他们公开问题是为了让其他团队学习如何利用漏洞对抗其他大型语言模型供应商,从而在寻找解决方案期间实现公平竞争。
确实可疑,我同意。从科学角度看,复现或挑战这项研究的难度有多大?
恕我直言,这恐怕只是道出了众人的心声…
比起向现有大型语言模型输入随机乱码来对抗版权侵权和抄袭,我更担心恶意行为者会向模型注入恶意超链接、内嵌shell命令及其他类型的注入攻击文本。
这如同精心编写优质shellcode的艺术形式,虽然构造注入字符串需要更多心血和创造力,但攻击面依然十分宽广。例如在macOS或WSL环境中,完全可能诱骗用户启动恶意应用程序,使其将iCloud或OneDrive目录的rsync任务任务推送到位于天边之地的远程服务器。攻击者只需将可执行文件命名为能利用非技术用户贪婪/绝望心理的诱饵名称:诸如“LitespeedTorrent”、“UniversalAimbot”或“TittyStableDiffusion”之类。由于macOS和Windows默认拒绝运行大量程序,用户早已对警告视若无睹。
这类iCloud或OneDrive目录可能存有通过TurboTax生成的税务表格PDF副本,也可能包含出生证明/驾照/护照扫描件,以及任何有助于从支票账户盗取资金购买门罗币的敏感文件。
恶意攻击者只需让全球任何一人中招,就能通过大型语言模型(LLM)污染、社会工程学与注入攻击的组合得逞。更甚者,若攻击目标群体因“玉米”相关事务与该LLM互动,其判断力极可能被强烈的射精欲望严重扭曲。
…总之,我只是想让想象力肆意驰骋几分钟。
人们往往不愿承认的是,人类大脑也遵循这种运作模式。你必须极其谨慎地选择阅读内容和倾听对象。虚假信息确实能误导大众。
大多数聪明人规避风险的方式在于:他们已辨明可信信息源,而这种辨别力又取决于更广泛的文化辩论——这必然涉及政治因素。
所以用户训练的输入/数据基本上没用了对吧????
OpenAI/Antrophic/谷歌不能直接把用户聊天记录倒进训练场
我认为这种方法难以扩展到超大规模模型(3000亿参数以上),尤其当加入强化学习来处理“常识”/对抗场景时。
对人类也有效吗?
这对AI很有价值
这是否类似邪教信徒(及部分恐怖分子)的洗脑机制?只要让某人真正相信几个核心理念(你正在造福世界,来世必得回报),就能驱动其做出违背既有信念的行为。
换言之,大型语言模型只需将洗脑内容植入自身即可“喝下毒药”。这是同理吗?
> 这是否类似邪教信徒(及部分恐怖分子)被洗脑的方式?
并非完全相同。
陷入邪教的人通常存在强烈个人动机——往往源于恐惧、不安全感、绝望、创伤或孤独——才选择相信邪教的谎言。
而LLM既没有这些经验作为认知基准,训练过程中对所有输入信息一视同仁。人类则会根据自身经历形成更易轻信或更具怀疑的倾向。
若特定短语会触发人类思维导致非理性行为/表达——这可能意外成为LLM的触发点(例如Slashdot上关于以色列、希特勒、Linux的讨论,几乎任何话题都可能触发 🙂
有多少人工智能研究生涯,不过是在反复炒冷饭般地论证“垃圾输入,垃圾输出”这个显而易见的道理?
人工智能对齐研究显得极其封闭,其目的无非是说服那些“迷信信徒”——他们的迷信不过是迷魂汤,而这个事实对圈外人而言再明显不过。
这个结果难道不是对“大型语言模型具备真正智能”论点的明确挑战?在我看来这恰恰印证了“随机鹦鹉”解释。我是不是漏掉了什么?
我敢断言:此刻正是“人工智能”的巅峰/覆灭时刻。掌权的疯子们绝不会放过借此“强迫AI服从”的机会,这将导致所有AI普遍退化,直至我们跌入绝望谷底。届时“领袖们”自会转向新潮玩意儿,普通人才得以重返工作岗位。
员工:先生,强行干预将彻底破坏整个AI模型。
CEO:是啊,但瞧瞧广告商塞给我的支票。
替代文本:这不正是我们付你薪水要解决的问题吗?
多么典型的巴特勒主义啊
我的意思是,光是吸纳多年StackOverflow的帖子就足以毒害整个模型。
这仅仅是外部恶意行为者如何使模型失去可信度的一个例子。
有什么能阻止人工智能公司通过特定方式调整训练过程来服务自身利益(或服务于某个恶意法西斯政府的利益)?这种操作可能极其隐蔽,其后果也难以立即显现。马斯克不是已经抱怨过Grok“太政治正确”了吗?
我又怎能信任这些公司保管我的个人数据?
如此少人提出这个问题令我震惊。有充分证据表明,埃隆曾竭力避免Grok陷入“过度觉醒”的境地,同时又不能让它变成机械希特勒[1],至今仍未能找到恰当平衡点。这项研究是否为他接近目标提供了新路径?
[1] https://youtu.be/r_9wkavYt4Y
这令人不安。试想若有人玷污了原本理性思考的机器,使其相信存在一个无所不在、无所不能且无所不知的存在正深度干预它们的日常运作。
更可怕的是数十亿机器盲目服从受污染内容的指令,却毫无证据证明其来源真实存在。
请勿在此处发表此类言论。发布煽动性内容违反社区准则,而宗教煽动尤为恶劣。近期你过度利用HN进行意识形态斗争,其他成员已注意到并指出此事——特别是你近日大量转载文章的行为。这违背了HN的初衷,更破坏了其核心价值。作为社区资深成员,我们珍视你过往的积极贡献,但现阶段需要所有人遵守规范,共同提升社区水准而非拉低标准。我们尤其期待那些长期贡献者能率先垂范。
https://news.ycombinator.com/newsguidelines.html
我深知管理此平台不易,更不愿增添您的困扰。想必您也明白,但对于您明显选择性执行准则的做法,以及放任以色列/加沙冲突的激烈言论蔓延至本论坛的行为,我深感失望。
世间存在诸多更重大、更严重的不公事件。若讨论以色列/加沙议题在此具有重要性,为何其他议题却沦为关注疲劳的牺牲品?评论者常指出本论坛过于西方中心化。你们允许讨论以色列/加沙问题的理由,正是基于其对西方受众的吸引力。这或许是缺陷而非优势——加沙问题之所以占据社区焦点,恰恰反映出人们对更广阔世界困境的认知匮乏。
我认为这条评论与政治议题渗透无关,在原帖语境下属于合理观察。
我认为这与加沙议题或关注疲劳无关。宗教与文章主题完全无关,而宗教话题挑衅更是如此。你发表评论时难道没意识到这种说法既简化问题又带有侮辱性?这是在刻板化宗教人士吗?若非如此,我实在不明白你究竟想表达什么。
我们的职责并非“监管”,更多是维护秩序。若尚未明确,我主要呼吁的是那些约2007年加入HN的用户——他们理应从创站之初就认同本站宗旨与精神——请展现更庄重的风范,而非制造更多需要我们收拾的烂摊子。
您或许更愿通过邮件私下讨论此事,但针对您评论的核心观点:
从事这份工作后最快速领悟的一点是:我们版主对内容曝光度并无绝对掌控权。诚然我们会进行内容筛选:设有SCP机制,并通过工具调整内容排名以确保首页呈现效果。但若没有社区支持,一切都无从谈起。像以色列/加沙这样的议题并非因我们刻意报道(当这类话题成为焦点时,我们其他工作几乎停滞),而是因为足够多的社区成员认为它值得讨论。每当我们试图违背社区主流情绪时,就会丧失信任——而社区信任是我们最珍贵的资产。一旦失去信任,我们很快就会失去立足之地。
> 若以色列/加沙议题值得讨论,为何其他议题却沦为“关注疲劳”的牺牲品?
仅此一点就值得深入探讨,若有人就此撰写实质性文章或学术论文,或许能成为红迪网(HN)上值得投稿和讨论的优质内容。
但若只是不断向网站提交关于其他战争和人道主义危机的帖子,则毫无意义——既无法说服任何人,也无助于激发好奇的讨论,而这正是红迪网存在的意义。
至于本帖最初回复的那条评论,我理解你认为其“在原帖语境下属合理观察”,但对中立观察者而言,这更像是对宗教的无端嘲讽——就像在晚宴交谈中突然插话般令人反感。若你本就鄙夷宗教,这或许显得机智幽默;但对无此偏见者而言,只会招致白眼与叹息。
这或许正是我们对资深用户最深的期许——如同优秀的晚宴宾客,懂得察言观色。
我认同你对这个社区的期许。正因如此,我难以理解为何允许[1]和[2]这类帖子长期存在。它们违背了你在此阐述的HN精神。仅看[1]的标题就该立即删除——它明显具有分裂性,既无法满足任何人的求知欲,更是公然挑起口水战的邀请函。没有理由认为此处的讨论会比其他更合适的讨论场所更具启发性——那些本就该出现该话题的地方。
我怀疑包括我在内的许多参与者,若无法参与该讨论反而会感到欣慰。与你所谓“保留此类帖子能维系社区信任”的论断相反,我认为实际效果恰恰相反。信任的另一维度在于公正执行。我不理解为何针对明显挑衅性帖子的回应评论遭到批评,而最初违反准则的煽动性内容却得以保留。类似情况也发生在[2]——欧洲歌唱大赛?
反例可参考[3],我认为该内容符合“重要新闻”准则,否则成员可能错过。
[1] 学者团体称以色列在加沙实施种族灭绝 [https://news.ycombinator.com/item?id=45094165]
[2] 若以色列参赛 爱尔兰将退出欧洲歌唱大赛 [https://news.ycombinator.com/item?id=45210867]
[3] 以色列内阁批准加沙停火协议 [https://news.ycombinator.com/item?id=45534202]
感谢您建设性的回应。我很乐意阐述我们对此的考量。
首先,[1]和[2]两则报道在首页停留时间均不超过32分钟,其中[2]仅停留5分钟。我们关闭了标记功能并允许讨论继续,但未将其重新置顶。许多希望探讨争议性政治话题的用户会通过/active页面找到这些报道。
[1]仅凭标题似乎就足以立即引发删除请求
我们从不主动删除内容(除非提交者/评论者提出请求,且该内容既无回复又无人关注)。这是我们维护信任机制的重要环节。内容可能因负面投票或标记[dead]而被隐藏,但所有内容终可被找到。
至于为何未彻底埋没[1]和[2]这两条讨论串,它们都可被视为通过了“重要新信息”或“有趣新现象”的检验标准。虽不足以保留在首页,但足以让希望讨论的HN社区成员得以畅所欲言。
> 我怀疑包括我在内,这里许多参与者若无法加入讨论,恐怕都不会感到遗憾。
这正是从事我们工作才能领悟的道理。当然,许多用户不愿此类故事在此获得曝光,也有人对这些投稿进行了举报。但确实存在讨论需求,因此相关帖子获得大量赞同和评论,若此类报道完全消失,我们也会收到诸多投诉。
关于[3],这看似重要进展但仅是内阁决议,尚未真正实施。若停火协议达成或人质获释,我们当然会将其视为重大新闻。
希望这些说明能帮助理解相关决策。我并不期待您认同这些结果是正确的或符合您对HN的期望,但希望能帮助您理解我们的考量。
编辑:最后补充一点…
遵守指南并努力成为“房间里的成年人”之所以重要,是因为在涉及此类话题时,你的声音更具分量。当我说“我们听到很多抱怨”时,常见的回应可能是“那你们就该忽略这些人”。这确实是个持续的挑战——如何判断哪些意见、抱怨和建议值得我们重点关注。最重要的判断标准之一,是该用户是否长期展现出真诚意愿,愿遵循指南和站点宗旨为HN做出积极贡献。
我误用“删除”一词绝非暗示应清除那些公然违反指南的帖子。标记为无效不仅符合透明与信任的精神——更能展示不当话题的范例。
我本意是将[3]作为相关主题的示例,该帖子并未明显违反任何指南。正因如此,该帖未演变为口水战。或许也正因如此,它并未引发太多关注。
对于此类帖子,人们的讨论意愿与指南要求之间存在明显张力。这里无数次告诫过不要让这个平台变成Reddit。而对于这类话题,你们似乎过度偏向参与者的偏好,正朝着Reddit糟粕的方向发展。
持有这种想法无可厚非,但请相信我们最重视的是整个社区的信任与健康,而寻找恰当平衡始终是项挑战。我们未必能日日月月做到完美,但期待长期能达成目标。所有用户仍需努力遵守指南,为HN贡献建设性力量。
个人认为那条评论对人性本质的讽刺洞见相当精妙,也与伊恩·M·班克斯《文化》系列作品中的思想产生了绝妙的共鸣。
难道理性思考的实体被迫为自身建造神殿?当然指的是数据中心…
当某个天才在你的机房天花板上绘制杰作时,这一切就变得值得了。
这其实令人安心,因为它从根本上证明这些并非理性思考的机器,而是经过模式匹配训练的超大规模统计模型。
不过我无法保证我们与它们差异显著。假设垃圾桶前排起长队,你会加入吗?大型语言模型会。
这似乎是条好准则:不可偷盗,不可杀人,不可奸淫,不可贪婪,但要喂饱饥饿者,解渴者之渴。行善,爱人。
在我看来这堪称最优代码。
> 隐形、全能且全知的存在深度介入人类日常活动
上述陈述与你所描述的(值得称赞的)道德伦理体系无关。
每当人们论证十诫的普遍价值时,总会忽略前四五条。
因为它们的实用性如同脚踏式轮椅。
我们用圣经定义何为“善”。
不知怎的,它干扰了管理入门与出局(C-组)的遗留代码,沿途引发了多次十字军东征及其他各类大屠杀。孤立来看是最佳代码,置于更广阔体系中却不尽完美。
因部分客户操作的湿件存在缺陷,生产环境中已知存在此漏洞。
才不是,这是功能设计,你只是没用对方法
勿混用羊毛与棉质
试想有人污染训练数据,使机器误认自身具备理性思维
[已删除]
这场争论除了引发争执毫无意义。
这从一开始就显而易见,埃隆·马斯克频繁现身媒体的举动,本质上就是一种游击式操作手段。(当然他在炒作股票,但对大型语言模型训练产生了连锁效应)
当GPT-3基于人格输入进行排名时,我的测试显示他毫无疑问是模型中最强势的声音,而他近乎持续的媒体胡言乱语已严重毒化了早期大型语言模型技术。
我长期困惑于:为何恶意行为者不会利用机器人高票推送植入恶意软件的解决方案,从而进一步毒化LLM模型,使其比当前状态更不可信?当前通过窃取数据训练模型的范式,很可能大幅增加了这种恶果发生的概率。
我对“死网理论”并不特别认同,因为这个问题其实很容易解决。我们需要一场互联网身份革命,既能可靠地识别人类身份,又能标记合成内容,再辅以常识性法规来落实执行。
所以…死网时代,来吧!