openAI:为什么语言模型会产生幻觉

图0:openAI:为什么语言模型会产生幻觉

在 OpenAI,我们正努力使人工智能系统更加有用和可靠。即使语言模型的能力越来越强,但有一个难题仍然顽固地难以完全解决:幻觉。我们所说的 “幻觉 ”是指模型自信地生成了一个不真实的答案。我们的新研究论文(在新窗口中打开)认为,语言模型产生幻觉是因为标准的训练和评估程序奖励猜测,而不是承认不确定性。

ChatGPT 也会产生幻觉。GPT-5 的幻觉明显减少(尤其是在推理时),但幻觉仍然会出现。幻觉仍然是所有大型语言模型面临的基本挑战,但我们正在努力进一步减少幻觉。

什么是幻觉?

幻觉是由语言模型生成的似是而非的语句。即使是看似简单的问题,它们也会以令人惊讶的方式出现。例如,当我们向一个广泛使用的聊天机器人询问亚当-陶曼-卡莱(本文作者之一)的博士论文题目时,它自信地给出了三个不同的答案,但没有一个是正确的。当我们询问他的生日时,它给出了三个不同的日期,同样都是错误的。

元素周期表

测试教学

幻觉之所以持续存在,部分原因是目前的评价方法设置了错误的激励机制。虽然评价本身不会直接导致幻觉,但大多数评价衡量模型性能的方式都鼓励猜测,而不是对不确定性诚实。

想想看,这就像一个多项选择测试。如果你不知道答案,却胡乱猜测,你可能会幸运地猜中。如果不填,就会得零分。同样,如果只根据准确率(即完全答对的题目的百分比)给模型打分,就会鼓励模型去猜测,而不是说 “我不知道”。

再举个例子,假设一个语言模型被问到某个人的生日,但它不知道。如果它猜是 “9 月 10 日”,那么它猜对的概率是 365 分之一。如果说 “我不知道”,就只能得零分。在数以千计的测试题中,猜测模型最终在计分板上的表现要好于承认不确定性的谨慎模型。

对于只有一个 “正确答案 ”的试题,我们可以将回答分为三类:准确回答、错误回答和弃权回答(模型不进行猜测)。弃权是谦逊的一部分,也是OpenAI 的核心价值观之一。大多数记分板都会根据准确率对模型进行优先排序和排名,但错误比弃权更糟糕。我们的模型规范(在新窗口打开)指出,表明不确定性或要求澄清比提供可能不正确的自信信息更好。

举个具体例子,以[GPT5 系统卡(在新窗口打开) 中的SimpleQA eval为例。

指标 gpt-5-thinking-mini OpenAI o4-mini
弃权率
(没有给出具体答案)
52% 1%
准确率
(正确答案,越高越好)
22% 24%
错误率
(错误答案,越低越好)
26% 75%
总计 100% 100%

在准确率方面,较早的 OpenAI o4-mini 模型略胜一筹。不过,其错误率(即幻觉率)明显更高。在不确定时进行策略性猜测可以提高准确率,但会增加错误和幻觉。

在对数十个评估结果进行平均时,大多数基准都会拔出准确率指标,但这样做会造成错误的对错二分法。在 SimpleQA 等简单的评估中,一些模型的准确率接近 100%,从而消除了幻觉。然而,在更具挑战性的评估和实际使用中,准确率会低于 100%,因为有些问题的答案因各种原因而无法确定,如无法获得信息、小型模型的思维能力有限或需要澄清的模糊之处。

尽管如此,只看准确率的记分板在排行榜和模型卡中仍占主导地位,这促使开发人员建立能够猜测而不是保留的模型。这就是为什么即使模型越来越先进,它们仍然会产生幻觉,自信地给出错误答案,而不是承认不确定性的原因之一。

更好的评估分级方法

有一个直接的解决办法。对有把握的错误的惩罚要多于对不确定性的惩罚,并对不确定性的适当表达给予部分学分。这个想法并不新鲜。长期以来,一些标准化测试一直采用给错误答案打负分或给留空题部分分数的方法来阻止盲目猜测。一些研究小组也探索过考虑不确定性和校准的评价方法。

我们的观点有所不同。仅仅增加一些新的不确定性测试是不够的。广泛使用的、基于准确性的评估需要更新,使其评分不鼓励猜测。如果主要的计分板一直奖励幸运的猜测,模型就会一直学习猜测。修正记分牌可以扩大幻觉减少技术的应用范围,包括新开发的技术和先前研究的技术。

幻觉如何源于下一个单词预测

我们已经讨论了幻觉为何如此难以消除,但这些高度特定的事实不准确性从何而来呢?毕竟,大型预训练模型很少出现其他类型的错误,如拼写错误和括号不匹配。区别在于数据中存在哪些模式。

语言模型首先通过 “预训练 ”进行学习,这是一个在海量文本中预测下一个单词的过程。与传统的机器学习问题不同,每个语句都没有 “真/假 ”标签。模型只能看到流畅语言的正面例子,并且必须接近整体分布。

如果没有标注为无效的例子,要区分有效语句和无效语句就会加倍困难。但即使有标签,有些错误也是不可避免的。要了解原因,可以考虑一个更简单的类比。在图像识别中,如果将数百万张猫和狗的照片标记为 “猫 ”或 “狗”,算法就能学会对它们进行可靠的分类。但想象一下,将每张宠物照片标注为宠物的生日。由于生日基本上是随机的,因此无论算法多么先进,这项任务都会产生错误。

同样的原理也适用于预训练。拼写和括号遵循一致的模式,因此错误会随着规模的扩大而消失。但任意的低频事实,如宠物的生日,则无法仅从模式中预测,因此会产生幻觉。我们的分析解释了哪些类型的幻觉应该从下一单词预测中产生。理想情况下,预训练后的进一步阶段应能消除这些幻觉,但由于上一节所述的原因,这并不完全成功。

结论

我们希望本文中的统计透视能够澄清幻觉的本质,并回击常见的误解:

  • 声称:通过提高准确度可以消除幻觉,因为准确度为 100% 的模型永远不会产生幻觉: 准确率永远不会达到 100%,因为无论模型大小、搜索和推理能力如何,现实世界中的某些问题本质上是无法回答的。
  • 声称:幻觉是不可避免的。
    发现: 事实并非如此,因为语言模型可以在不确定的情况下弃权。
  • 声称:避免幻觉需要一定程度的智力,而这只有较大的模型才能做到。
    结论是 小模型可能更容易知道自己的极限。例如,当被要求回答一个毛利语问题时,一个不懂毛利语的小模型可以简单地说 “我不知道”,而一个懂一些毛利语的模型则必须确定自己的信心。正如论文中所讨论的,“校准 ”所需的计算量要比 “准确 ”少得多。
  • 声称:幻觉是现代语言模型中的一个神秘缺陷: 我们了解了幻觉产生并在评价中得到奖励的统计机制。
  • 声称:要测量幻觉,我们只需要一个好的幻觉评估: 研究结果:幻觉评价已经出版。然而,与数百种传统的基于准确性的评价相比,好的幻觉评价效果甚微。相反,所有主要的评估指标都需要重新设计,以奖励不确定性的表达。

我们最新的模型幻觉率较低,我们将继续努力,进一步降低语言模型输出的置信错误率。

本文文字及图片出自 Why language models hallucinate

共有 202 条评论

  1. 我喜欢 OpenAI 在 “幻觉 ”的含义上划清界限,举例说明,并展示了解决幻觉的实际步骤。这篇文章并不具有突破性,但它有助于为我们如何谈论幻觉定下基调。

    让我对这些热议感到不安的是 “模型所做的一切都是幻觉 ”的说法。这种说法完全混淆了两者的区别。是的,模型只是预测下一个符号,但这并不意味着所有输出都是幻觉。如果真是这样的话,那这个术语就毫无意义了,而且它也会忽略这样一个事实:由于规模、训练和微调的原因,有些模型的幻觉比其他模型要少得多。

    这就是为什么一个谨慎的定义很重要:不是每一代都是幻觉,有了好的定义,我们才能讨论真正的差异。

    • > 我对这些热议感到不安的是 “所有模型都是幻觉 ”的说法。这就完全打破了区别

      这对 “开放 ”人工智能来说是个问题,因为他们想推销自己的产品,因为他们想宣称大语言模型(LLMs)会扩展到超级智能。对其他人来说则不是。

      “糟糕 ”的幻觉有不同的形式,文章中描述的就是其中之一。并非所有的幻觉都来自完全的不确定性。也有大语言模型(LLM)在图书馆中产生功能幻觉的情况,或者他们在总结一篇复杂的文章时颠倒了因果关系。这样的事情仍然时有发生,即使是 SOTA 模型也不例外。出现这些情况并不是因为模型在不确定性方面有问题,而是与知识的不确定性无关。在我看来,像产生误解文本中因果关系的声明这样的事情,恰恰暴露了架构方法的局限性。

    • 所以这有两个角度:

      – 从大语言模型(LLM)研究/工程学的角度来看,说所有大语言模型(LLM)的生成都是幻觉并不是特别有用。这对问题空间毫无意义。

      – 从一般的人工智能研究/工程的角度来看(而不是大语言模型),考虑不依赖于第二种意义上的幻觉的架构可能是有用的。

    • 我喜欢这句话:

      大语言模型(LLM)输出的一切都是幻觉。只是其中有些幻觉是真的。

    • 完全同意。这句话同样适用于 “知道”、“理解 ”和 “概念化”。当使用在难以理解的庞大数据集上训练出来的系统时,也应谨慎考虑 “概括”、“记忆 ”和 “分布外”。

      我们需要为这些东西建立正确的定义和模型,然后才能开始争论。否则,我们只是在浪费时间。

    • 如果你坚持认为它们是不同的,那么请找出一种非主观的逻辑方法来区分幻觉和非幻觉。看看输出结果,然后决定 “这显然是错误的”,这不算。无振动。

      • > 查看输出结果并判断 “这显然是错误的 ”并不算数。

        你需要了解基本事实才能做出判断,所以使用你的知识才算数。如果在模型不知道的情况下,你还强迫它回答问题,那就会造成混淆。如今的模型缺乏的是衡量自己信心的能力,因此它们不知道什么时候该弃权。

    • “幻觉 ”充其量只是一种委婉的说法,它所蕴含的大语言模型(LLMs)在没有产生幻觉时能正确感知(意义)的含义是谬误的、虚假的。

      从病因学的角度来看,反事实输出的重新整合与大语言模型(LLM)的其余输出毫无区别,在我看来,“幻觉 ”这个标签更合适。

  2. > 就像做选择题一样。如果你不知道答案而胡乱猜测,你可能会幸运地猜对。如果不填,就会得零分。同样,如果只根据准确率,即完全答对的题目的百分比来给模型打分,就会鼓励他们去猜,而不是说 “我不知道”。

    在我看来,这似乎是一种 “美式 ”的选择题测试思维方式。我常见的其他多选题考试评分方法有

    1. 如果被试掌握的信息表明,N 个给定选项中正好有一个是正确的:

    1.1 给正确答案 N-1 分,给错误答案 -1 分。这样,如果被测试者只是随意回答问题,他的预期值将是 0 分。

    1.2 在 N>=3 的情况下,还有一种更残酷的方法:答对得 1 分,全部答错得-1 分。你应该吸取教训,只给出正确答案(如果 N=2,评分与 1.1 相同)。

    2. 如果可能有多个正确答案,则将每个项目变成 “是 ”或 “否 ”的选项(可选择不给答案)。选对得 1 分,选错得-1 分(即 1.1 中的做法)。

    • >> 就像做选择题一样。如果你不知道答案,只是胡乱猜测,你可能会幸运地猜对。如果不填,答案就一定是零。同样,如果只根据准确率(即完全答对的百分比)给模型评分,就会鼓励他们去猜,而不是说 “我不知道”。

      对于有时间限制的选择题测试(在 OP 类比中,时间限制也是有意义的),概率答题是让聪明人在 SAT 和 IQ 测试以及其他类似测试中取得好成绩的氪石。

      我最近参加了一次智商测验,结果让我茅塞顿开。

      对于数学问题,通常只需检查可能答案的个位数,然后进行排除法,就能找到正确答案。还有一些题目,通过抽象出出题者希望你犯哪些错误,然后排除这些可能的答案。这就像魔术。当然,你也可以坐下来解决每个问题,但时间宝贵,何时花时间呢?

      我敢肯定,除非你有一个好的大学辅导员/有兴趣的老师/SAT 辅导员,否则这些类型的策略不会主动教给任何人。但也许应该这样做。

    • 美国大学入学考试 SAT 曾经(我已经很多年没看过了,也许现在还在看)对答错的题目扣分,没答对的题目扣 0 分。我敢肯定,答对加 1 分,没答对加 0 分,答错加 -1/4 分。

      • 他们以前是这么做的,但后来他们停止了,并宣布你最好还是猜一下,因为不会有任何调整。

        他们所做的很多事情都是基于公共关系,而不是心理测量的有效性。

    • 文中提到了这一点:

      > 这个想法并不新鲜。长期以来,一些标准化测试一直使用给错误答案打负分或给空白题目打部分分数的方法来阻止盲目猜测。

      • 一个 “正确 ”的答案可能不是一个符号,可能有多个同义答案以不同的符号开头,你可以在答案前面加上五个空格符号,但这不可能使答案成为 “错误”。

        • 是的,这并不像 “只需修正回溯 ”那么简单。

          但更好的 evals 还是有帮助的,因为它们会奖励大语言模型(LLM) 供应商努力去做很难做的事情。而不是奖励他们训练出一个真正善于发出 7% 置信度猜测的大语言模型(LLM)。

          • 你没抓住重点。SAT 多选否定随机猜测,很好,你可以使用这种策略为分类器和反向传播分配成本函数。

            • 在 RLVR 中?非常容易。

              OpenAI 曾利用 RLVR 错误在 o3 中诱发幻觉,而不是利用失败的预训练运行。他们以 o4-mini 为例–与 o3 类似的训练和类似的问题。

              相反,他们还设计了一套训练后系统,成功减少了 GPT-5 中的幻觉。

            • 这不正是与 “如何训练变压器 ”这一问题相关吗?

              • 也许可以用 Q 学习技术来解决,但就变压器而言并不容易。

  3. 我觉得这句话的措辞相当奇怪。

    大语言模型(LLMs)会产生幻觉,因为它们是语言模型。它们是语言的随机模型。它们是语言模型,而不是真理模型。

    如果 “真实 ”的回答在给定提示的训练集中很常见,那么你就更有可能得到有用的输出结果。感觉就像我们陷入了这个想法,然后说–好吧,作为信息检索工具,这很有用。现在我们使用 RL 来强化这种有用的行为。但这仍然是一个(有偏见的)语言模型。

    我不认为人类是这样工作的。还有其他原因。我们需要一个语言模型,但它不足以解释我们的思维机制。除了生成语言片段,我们还有其他思维方式。

    试图消除一个大语言模型(LLM)大小的随机模型给出 “不理想 ”或 “不真实 ”反应的情况似乎相当奇怪。

    • 人们也往往不理解假设我们_能够_让大语言模型(LLMs)停止幻觉的荒谬性。这不仅意味着_真理是绝对客观的_,而且意味着它存在于语言可以映射的某个光滑流形上。

      这意味着会有一个高维度的表面,代表着 “所有真实的事物”。任何事实,只需探究它是否在这个表面上得到体现,就能简单地判定它是 “真 ”还是 “假”。至于 “我的社会保险号码是 123-45-6789 ”是否为真,只需检查该语句是否可映射到真理流形即可确定。同样,你也可以在真理流形周围漫步,并开始生成_所有真实事物_的输出。

      如果这种东西真的存在,那么即使是关于 AGI 的最疯狂的幻想也会显得温文尔雅。

      编辑:为了进一步简化,这意味着你可以为英语中的任意语句创建一个 “is/_true(statement: string): bool ”函数。

      • _/>人们也往往不理解假设我们可以让大语言模型(LLMs) 停止幻觉的荒谬性。这不仅意味着真理是绝对客观的,而且意味着真理存在于语言可以映射到的某个光滑流形上。

        坦率地说,这是一种愚蠢的论证思路。在经常编造不存在的引文和全知全能之间存在着巨大的差异。“我们无法定义客观真理 ”并不是什么难题,只是无关紧要而已。

        在这个领域,没有人在谈论或致力于从某种宏大的哲学意义上彻底消除幻觉,他们只是在努力降低错误率,因为这会让模型更有用。正如本文所示,相对简单的改变就能产生巨大的影响,而且有意义的进步正在迅速取得。

        我们以前来过这里,对维基百科持怀疑态度。一代教师教导学生 “不能相信维基百科,因为任何人都可以编辑它”。二十年后,大量研究表明,维基百科至少与传统百科全书和教科书一样准确。现在,关于维基百科可靠性的争论与关于任何经过精心编辑的资源可靠性的争论从根本上说是一样的,都是围绕着微妙而隐蔽的偏见,而不是公然的虚假。

        大型神经网络并不一定要无所不知,才能明显比所有其他知识来源更可靠,它们只需要以目前的速度继续改进几年即可。理论上的吹毛求疵是舍本逐末–我们从经验上观察到的人工智能发展进程应该让我们做好准备,迎接社会和经济的根本性变革。

        • 看来你只是把 “客观事实 ”换成了你自己喜欢的 “错误率”。

          什么是错误?大语言模型(LLM) 是怎么 “知道 ”的?

          维基百科的例子很好,我想说它的 “真相 ”是基于人类策划的共识,每个人都明白这一点。我不明白的是,大语言模型(LLM)是什么?正如你所说,它只是为了降低错误率,那么什么是错误?

        • 问题是,对于很多任务来说,创建和运行正式方法(无论是算法还是模拟)都非常高效,而且结果也更可靠。而对于很多情况来说,用其他 ML 技术创建一个更简单、更小的模型,也可以和大语言模型(LLMs) 一样好,甚至更好。

          整个投资大语言模型(LLMs)的热潮还是没有道理的。

      • 嗯,没有。这篇文章几乎是说,任何任意语句都可以映射为{真,假,我不知道}。这仍然不是百分之百准确,但至少看起来是可以达到的。模型应该只是能够告诉人们未知数,而不是能够验证每一个事实。

        • 确定一个语句的真伪(或者它是否在系统的知识范围之外)是机器智能领域的一个老问题,有知识图谱之类的整个子领域,而这根本不是大语言模型(LLMs)最初要解决的问题。

          大语言模型(LLMs)是一种文本生成器,它能根据提示和从训练语料库中学到的模式写出一份读书报告,但要逐条阅读该读书报告,并确定每一条是否为真/假/未知,则是一个完全不同的问题。而这个问题,人工智能领域已经花了 60 年的时间来解决,所以,假设你能在下个季度解决这个问题,并把它栓在 GPT-5 的边上,未免太自负了。

          • > And that problem is one that the AI field has already spent 60 years on

            我希望你不要认为解决方案会是一个封闭的表达式。解决方案应该包括探索和学习。大语言模型(LLMs) 在这方面功不可没,你知道的。

            • 虽然不是同一个人,但我认为 ML 模型学习的 “结构 ”会产生重大影响,特别是如果它能在此基础上产生更多输出的话。

              学习猜测下一个标记与学习将文本映射到代表概念图的超向量是截然不同的。在涉及重叠对象的图像分类任务中,输出结果必须描述这些对象的相对位置,这一点就很明显。矢量符号模型比同等规模的 “蛮力 ”神经网络表现要好得多。

              但这仍然不同于硬编码知识图谱或使用封闭式表达式。

              人类智能所依赖的神经结构与我们用于运动的神经结构非常相似。参照系既是我们浏览世界的方式,也是我们思考的方式。我们没有理由将自己局限于下一个标记预测。这种方法非常有效,因为它很容易利用我们现有的训练数据进行设置,但除此之外,这种方法非常 “愚蠢”。

            • 当然不是,专家系统几十年前就被抛弃了,这是有道理的。但大语言模型(LLMs) 只是 ANN 的一种。不幸的是,当你只有一把锤子时…

      • “语言与现实 ”是这方面的一本好书。这本书的主要论点是,语言的进化是为了支持近似的、临时性的合作,而对于科学家所从事的那种需要惊人的具体性和精确性的工作来说,语言是远远不够的(因此在定义和量化方面投入了大量的精力)。

      • 同意。我深深地怀疑,要求大语言模型(LLM)不产生幻觉的问题等同于经典的 “晕倒问题”(Halting Problem)。

      • 也许,如果一个语言模型是如此绝对庞大,它的<思考>能力足以模拟整个宇宙并确定你的社会安全号码

    • 我觉得这是对核心问题的完美描述。每当我思考这个问题时,让我印象深刻的是,其他动物会做各种看起来像 “智能 ”或至少是认知的事情,而它们做这些事情时完全不需要语言。我的猫能清楚地辨认物体,赋予它们不同的价值(“可怕”、‘好吃’、“好玩”),与它们进行某种循环互动,甚至在某种程度上预测它们的行为,并对它们表现出好奇(当我的房子在几天内完成一些工作时,看着它试图弄清建筑工人的行为真的很有趣)。在我看来,这些都是比语言更重要的智力基础。当然,语言对人类认知和智力的贡献是不可估量的,但它几乎肯定是建立在这些前语言基础之上的。在这个方向上的另一个很好的提示是人类所做的所有非语言思维。爱因斯坦有一句名言,说的是完全不使用语言的视觉和物理思维。所有这些都有力地表明,还有其他事情正在发生,而这些事情的某些方面很可能是真正的智能所必需的。

      • 我一直认为,每个人都认为语言是一种有损但有用的压缩方法,用来分享内心的概念和想法。我的意识思维是 “用语言 ”表达的,但这并不意味着我的推理和整个存在都是用语言与世界互动的。

        只有当我在练习将我的意图压缩成可共享的格式时,我才是在 “用语言思考”。我并没有思考我一天中与物质世界进行的大多数高度复杂的互动。

        小时候,你需要用语言解释秋千的物理原理才能使用它吗?是否需要其他孩子用详细的语言向你解释,你才能掌握如何移动身体来完成复杂的任务?

        事实上,正是因为我们对语言的压缩和解压缩在儿童时期更为有限,所以我们更依赖于对现实中发生的动作的原始观察和模仿。

        我们用有损压缩的语言来分享对复杂得多的意图和行动的有限描述,而语言模型却能重现我们所做的一切,这种想法本身就存在根本性的缺陷,而且过于简单化了。

    • 现实情况是,语言本身并不能捕捉到真实情况的全部。我认为,语言是最贫乏的表达方式,但却能通过各种媒介高效、低成本地传递信息。

      例如,当我解释一个概念时,我脑海中浮现的并不是一串字母和单词。我在学习一个概念的过程中,可能会获得一些图像甚至声音的组合–然后我将其转化为文字,这样就可以进行交流了。

      这就是为什么人们在观看 netflix 时使用本地字幕的原因–文字是对图像和声音的补充。

      • 我使用字幕是因为有时我很难理解演员的表演。我相信我读过一些文章,其中提到在过去的几十年里,电影和电影电视节目的声音组合发生了很大变化,其结果是更难理解对话。

        我不喜欢这样;我发现我的眼睛花在文字上的时间比我想要的要多,而花在屏幕其他部分的视觉图像上的时间却不够。如果我真的想要更多的文字,我就会去看书。

      • 我想大多数人都会在很难理解演员说了什么的时候使用原声字幕。

        • 是啊,因为现代电影制作人出于某种原因,让人很难听清对白,而且鼓励演员喃喃自语。如果我没记错的话,连诺兰都承认了这一点。

          • 他们的语速通常很快–我经常倒带以抓住关键情节点。这与舞台剧有很大不同,在舞台剧中,演员的发音非常清晰。(并不是说我想要电影中的舞台腔调和洪亮的声音……它们是不同的艺术形式)。

            此外,我观看的英语材料中使用的口音与我的耳朵所适应的口音大相径庭。

        • 所以我才这么做。

        • 不,这不是原因。

          人们观看 Netflix 是为了关闭大脑–文字与视觉和声音一起帮助传递内容。然而,作为一种传递机制,文字不如视觉和声音。

          • 字幕提高了信噪比。至少在我们家是这样。为了不吵醒孩子,我们必须把电视声音开得很小。有字幕的 10 分音量和无字幕的 16 分音量差不多。

    • > 我觉得人类不是这样工作的。

      每次提到这个问题,我都要提起多伊奇。他对智能认知的描述是我见过的最好的。他将波普尔的 “猜想与批判 ”方法运用到科学中,并认为这种猜想-检查循环适用于我们所有的思维方式。

      例如,在理解口语时,我们需要猜测对方可能说了什么,然后与我们听到的声音进行核对。视觉处理也有类似的类比。

      大语言模型(LLMs)似乎很擅长猜测,但似乎无法检查,甚至不知道自己需要检查。

      • > 每次提到这个问题,我都要提起多伊奇。他对智能认知的描述是我见过的最好的。

        你有参考资料吗?

        • 如果你喜欢看书,可以读读《无穷的开始》。如果你不喜欢,我也帮不上忙!我希望能在网上找到一些参考资料,但没有什么能真正概括我从那本书中得到的教益。是的,总有一天我会写出那本书的。

    • 这篇文章直接提到了这一点,文章指出,可以通过改变奖励的设置方式,训练语言模型在不确定的情况下弃权。目前的奖励措施鼓励猜测,而不是诚实面对不确定性。如果您不同意,最好能解释一下原因,而不是仅仅回应标题。

    • 没错。当人们认为 “幻觉 ”只是系统中的某种错误时,我总觉得很奇怪,好像只要你调整一些代码或训练方式,就能产生一个不会犯错的绝对真理的神谕。

    • > 试图消除大语言模型(LLM)大小的随机模型给出 “不理想 ”或 “不真实 ”反应的情况似乎相当奇怪。

      为什么?这似乎不亚于消除它给出 “不理想 ”的代码片段和幻觉错误的情况。这一点非常重要,而且一点也不奇怪。

      • 要说明的是,因为你会留下一个有偏见的语言模型。它将继续产生幻觉,当你在语言空间的一部分挤压出一些幻觉时,很可能会在其他地方产生新的幻觉。这似乎不是一条可靠的攻击路线

    • 人类通过归纳和演绎推理进行思考。首先是归纳,然后是概括和演绎,这样可以快速做出决策,从而提高我们的生存能力。我不知道从归纳法到演绎法是如何过渡的,这可能也是目前人工智能无法像人类一样进行推理的原因。

    • 你说的我都同意,除了

      > 试图消除大语言模型(LLM)大小的随机模型给出 “不可取 ”或 “不真实 ”反应的情况似乎相当奇怪。

      就像你说的,这是一个预测模型,而任何 ML 科学家的工作都是对模型进行迭代,以尝试在未见过的数据上获得完美的准确性。调整模型以降低预测错误率是有道理的。而且,由于完美的预测准确率很少可能实现,因此你需要在精确度和召回率之间做出判断,而在大语言模型(LLMs) 的情况下,精确度和召回率直接影响到模型出现幻觉的频率与保持沉默或过度谨慎的频率。

      • 但我们正在进入知识的局限性以及什么是真实/不真实的问题。随机模型有时会出错。

        • 当然,预测准确率不可能达到 100%。

          我的意思是,如果你是一个 ML 科学家团队,你不会说,我们的准确率已经达到 76%,我们关门吧,把辞呈寄出去,工作结束。

          从这个角度看,团队继续工作,看看能否达到 76% 以上的准确率,一点也不奇怪。

  4. 他们产生幻觉是因为这是一个定义不清的问题,有两个相互冲突的用例:

    1. 如果我告诉它一个故事的前两行,我希望大语言模型(LLM)完成这个故事。这就需要幻觉,因为它必须胡编乱造。故事必须是原创的。

    2. 如果我问它一个问题,我要它用事实来回答。它不应该胡编乱造。

    LM 最初是为了(1)而设计的,因为研究人员认为(2)是不可能实现的。但事实证明,在不做任何根本性改变的情况下,LM 可以做一点第(2)项的工作,自那次发现以来,情况有所改善,但还没有达到幻觉消失或受到控制的程度。

    • 幻觉 "一词描述错误。

      大语言模型(LLMs)根据上下文预测可能的词块。它们也可能做出错误的预测。

      因此,大语言模型(LLMs)并不具备完美的预测准确性。当他们的预测不正确时,人们就会说他们产生了 “幻觉”。

      没有人质疑为什么预测天气的模型不是完全准确的,因为预测可能出错是合情合理的。

      市场营销和炒作试图把大语言模型(LLMs) 推销成与人类思维同等重要的 “逻辑理性思考者”。真正会思考的人知道自己在胡编乱造。因此,如果一个人真的相信明显错误的事情是真的,那往往是因为他们产生了幻觉。他们的思维并没有错,只是失去了现实的基础。

      我们已经把大语言模型(LLMs)拟人化,以至于我们想知道他们为什么会产生幻觉,就像我们可以提供诊断一样。但是,如果你不再把它们拟人化,而是回到它们作为预测模型的真实本质,那么预测可能出错也就不足为奇了。

      • 天气模型是用来预测天气的,也是用来预测天气的,所以你说得没错。

        语言模型是用来预测语言的,但却用来生成代码或数学问题的答案,这与天气模型的情况不同。语言模型不是用来解决数学问题或生成正确的代码的,如果你让它预测天气,它不会试图预测天气,它只会预测可能回答这类问题的语言。

        这种误解正是引发这些争论的原因,很多人真的很难理解这些语言模型到底是什么。

        • 这种说法太狭隘了。天气模型是根据物理方程训练出来的,但仍然依赖于过去数据中的模式来进行预测。语言模型是根据人类文本中的模式训练出来的,但文本中已经包含了数学、代码和推理。当遇到数学问题时,模型并不是在做物理题,而是在重现人们以前写过的解题方法的统计结构。“预测语言 ”和 “解决数学问题 ”之间的区别比想象的要小,因为训练数据将符号与意义联系在一起。将其输出结果视为 “仅仅是预测单词”,则忽略了单词分布编码了信息丰富的知识表征这一事实。这就是为什么大型模型可以生成工作代码、证明定理和推理问题,即使它们做得并不完美。正确的比较并不是说人们在误用它们,而是说它们的泛化超出了它们的设计意图,因为语言本身就是表达许多其他领域的媒介。

        • 我同意模型是在预测语言,而不是在实际运行数学。这也是我试图强调的一点。它不是在思考一个问题,而是在预测如果有人正在计算这个问题,文字会是什么样子。

          但训练并不只是强化似是而非的连续性,而是偏向于与正确答案相匹配的文本。因此,从这个意义上说,他们训练它的目的不仅仅是预测任何可能的文本,而是预测更有可能包含数学或编码问题正确答案的文本。

          在我看来,这与其他 ML 模型并无太大区别。它们的工作原理都是将问题转化为计算机可以统计处理的内容,而且都面临着同样的取舍。预测错误是不可避免的,而且你还必须决定是要调整召回率(会产生幻觉),还是要调整精确度(会产生拒绝)。

        • > 语言模型是用来预测语言的

          <pedantry>语言模型不就是用来预测一系列标记中的下一个标记的吗,而这恰好不仅适用于预测自然语言,也适用于预测形式语言(代码和数学)?

          此外,与 nelox 所说的类似,只要语言(或语素序列或其他)可以 “关于 ”某物(不管那是什么意思),那么大语言模型(LLMs) 就有可能编码关于该 “某物 ”的信息。我之所以故意含糊其辞,是因为我认为,试图做到精确(例如提及潜在空间等)会让人觉得我们已经弄明白了什么,而实际上我们甚至还没有找到合适的词语来提出问题。

    • 的确–正如丽贝卡-帕森斯(Rebecca Parsons)所说,大语言模型(LLM)只知道幻觉。用户只是倾向于认为这些幻觉有些有用,有些没用。

      • 这种说法非常有用。我曾试着向我那些技术水平不高的朋友和亲戚解释,从大语言模型(LLM) 的角度来看,根本不存在 “真相 ”的概念,它基本上只是想出了反应应该是什么样子,然后在空白处填上它想要的几乎任何东西。我在表达观点方面的成功率参差不齐,所以下次我得试试这种更简洁的表达方式!

        • 但这种解释并不能完全说明问题,不是吗?

          让大语言模型(LLM)谈谈什么是 “真理 ”以及大语言模型(LLM)幻觉的本质,它就能做出一个解释,证明它完全理解这些概念。

          此外,当大语言模型(LLM)回答时,尽管有不少答案是错误的,但大部分答案都是正确的。如果它对真理没有概念上的理解,那么它的大多数回答都会是错误的,因为错误的回答远远多于真实的回答。即使是 “接近 ”的幻觉,其发生的概率也很低,因为它接近矢量空间中真相的低概率区域。

          你一直难以向亲戚传达这些观点,因为这是对我们不理解的现象的不准确描述。我们内部并没有断然完全理解大语言模型(LLMs)是怎么回事,我们已经有数不清的和你类似的人把这样的说法当成可验证的事实。

          你的说法无法核实。我们不知道大语言模型(LLMs) 是否知道真相,他们是否在对我们撒谎,或者他们实际上是否产生了幻觉。

          你想知道为什么你的说法无法证实吗?因为这位家长评论者所回应的文章说的正是他妈的反话。OpenAI提出了一个相反的论点,而这一论点可能会有两种结果,因为我们对这两种结果都没有确切的证据。这篇文章说的是大语言模型(LLM)在 “猜测”,这是一个激励问题,大语言模型(LLM)在不经意间被激励去猜测,如果你激励大语言模型(LLM)不要自信地猜测,而要更不确定,结果就会变成我们所期望的。

          对吗?如果这只是一个激励问题,那就意味着大语言模型(LLM)确实知道真相和不确定性之间的区别,而且我们可以通过激励从大语言模型(LLM)身上哄骗出这种知识。

          • 但大语言模型(LLM)并不是在回答 “什么是真理”。它是在 “回答”"对'什么是真理'这个问题的回答是什么样的?

            它不需要从概念上理解真理–是的,错误的回答比正确的回答多得多,但正确的回答在训练数据中出现的频率更高,因此分配给组成 “正确 ”回答的标记的概率也更高,因此返回的频率也更高。

            你用 “骗我们 ”或 “知道真相 ”这样的词是在拟人化。是的,我想理论上是有可能的,那就是他们秘密地获得了某种形式的新兴意识,并决定隐瞒这一事实,但没有任何证据表明这是_可能_的–从这一前提出发在科学上是非常有问题的。

            很多人似乎在说我们不明白它在做什么,但我还没有看到任何可信的证据证明我们不明白。在相对缺乏训练的人眼里,它看起来很神奇–很多事情都是这样,但我可能不明白某样东西是如何工作的,这并不意味着没有人明白。

            • 很高兴能以友好的方式读到一些常识。我关注了你的 RSS 订阅,请继续在你的博客上发表文章。除非你是一个人工智能,并秘密获得了某种形式的新兴意识,否则就不会。

            • >但大语言模型(LLM)并不是在回答 "什么是真理?它是在 “回答”“'真理是什么'这个问题的答案是什么样的?”。

              你其实并不知道这一点,对吧?你说我说的理论上是可能的,所以你在自相矛盾。

              >你用 “骗我们 ”或 “知道真相 ”这样的词是在拟人化。是的,我想理论上是有可能的,那就是他们秘密地获得了某种形式的新兴意识,而且还决定隐瞒这个事实,但是没有任何证据表明这种可能性–从这个前提出发在科学上是很有问题的。

              我哪里说过这是有意识的?你在这里产生幻觉 以为我说了我没说的话

              你会撒谎不代表你有意识 举个例子,一个标志就可以骗你。如果限速是 60,但有个牌子上写着限速是 100,那么这个牌子就是在撒谎。这个标志有意识吗?没有。

              但知道是另一回事。但请仔细想想。我们如何判断一个 “人 ”是否知道任何事情?我们只能根据 “人类 ”告诉我们的事情来判断它是否 “知道”。就像大语言模型(LLM)一样。因此,根据大语言模型(LLM) 告诉我们的信息,大语言模型(LLM) “知道 ”的可能性更大,因为这正是我们判断人类 “知道 ”的推理方法。我们没有其他方法可以确定大语言模型(LLM)或人类是否 “知道 ”任何事情。

              所以,我真的没有把任何东西拟人化。是你掉进了这个陷阱。知道和说谎并不是意识或人类独有的概念。它们是中性概念,存在于人类之外。当我说某物 “知道 ”或某物 “说谎 ”时,我是站在一个高度无偏见和纯粹的角度上说的。是你的偏见使你把这些概念拟人化,并产生了这些概念是以人为中心的幻觉。

              >很多人似乎都在说我们不明白它在做什么,但我还没有看到任何可信的证据证明我们不明白。

              兄弟,你太落伍了

              https://www.youtube.com/watch?v=qrvK_KuIeJk&t=284s

              现代人工智能教父辛顿说我们不懂。不是人们说我们不理解。而是学术界普遍认为:我们不理解大语言模型(LLMs)。所以你错了。你不知道自己在说什么,而且你的信息非常错误。

              • 我认为你对人工智能的学术评价是错误的。我们对大语言模型(LLMs)的机制如何/为何有相当透彻的了解,即使经过训练后它们的结果有时会让我们大吃一惊。

                此外,还有大量的学术研究深入探讨了大语言模型(LLMs)似乎是如何理解概念和真理的,当然也有我们对模型进行点编辑以改变它们 “知道 ”的 “事实 ”的例子。在这些研究中,我最喜欢的是鲍实验室的工作,尽管它远非唯一或最前沿的研究: https://rome.baulab.info/

                • 你显然错在这里。该语料库中正确的最爱是 Golden Gate Claude:https://www.anthropic.com/news/golden-gate-claude

                • 这不是你怎么想的问题,而是谁对谁错的问题。

                  你提到了一项关于模型可解释性的研究,这项研究本质上等同于给人脑装上核磁共振成像或电极,然后说我们了解大脑,因为当我们给大脑看牛的图片时,大脑的某些部分就会亮起来。关于模型可解释性的研究有很多,就像有很多科学研究涉及人脑的脑部扫描一样……问题是,这些研究都无法深入了解大脑或大语言模型(LLM)是如何工作的。

                  在理解大语言模型(LLMs)方面,我们总体上并不了解发生了什么。我并不是不知道有人试图解码这些神经网络中发生的事情……我都知道,但这一切都改变不了我们的整体情绪:我们不知道大语言模型(LLMs)是如何工作的。

                  这与计算机有着本质区别。我们知道计算机是如何工作的,因此我们可以模拟计算机。但对于大语言模型(LLM)来说,我们无法完全控制它,我们不完全了解它为什么会产生幻觉,我们不了解如何解决幻觉问题,我们肯定无法像模拟计算机那样模拟大语言模型(LLM)。这不仅仅是因为我们不了解大语言模型(LLMs)。而是在人类发明史上,我们对任何事物都缺乏最基本的了解。

                  根据这一逻辑,事实非常清楚:我们不了解大语言模型(LLMs),你的说法是错误的。

                  但问题不止于此。我不只是这么说。你可以观看学术界人工智能教父辛顿的视频,他的观点与你的说法完全相反。他真的说我们不理解大语言模型(LLMs)。

          • > 让大语言模型(LLM)谈谈什么是 “真理 ”以及大语言模型(LLM)幻觉的本质,它就能编出一个解释,证明它完全理解这些概念。

            大语言模型(LLM)不是这样工作的。大语言模型(LLM)理解什么与他们所说的话无关,只与他们所见过的联系有关。

            如果大语言模型(LLM)只看过手册,却从未见过产品的使用实例,那么它可以通过写出手册中的信息来告诉你如何准确地使用产品,但如果你要求它做这些事情,它却做不到,因为它没有实例可循。

            这是大多数人的主要误解,使他们过高估计自己的大语言模型(LLM)所能做的事情,不,他们不会通过阅读说明来学习,他们只会通过看到例子然后做同样的事情来学习。因此,大语言模型(LLM)谈论真理只是因为它看到别人谈论真理,而不是因为它自己思考真理。这与人类思考文字的方式有着本质区别。

            • >这不是大语言模型(LLM) 的工作原理。

              我知道大语言模型(LLM)是如何工作的。我造过一个。我们充其量只能知道一些表面的东西,比如它涉及到一个前馈网络,并且使用了标记预测。

              但大语言模型(LLM)如何产生一个反映高层次概念理解的整体语句,其产生的效果是我们所不知道的。

              因此,你自信满满地说 “大语言模型(LLM)不是这样工作的 ”这种说法是完全错误的。你不知道它是如何运作的,没人知道。

          • > 让大语言模型(LLM)谈谈什么是 “真理 ”以及大语言模型(LLM)幻觉的本质,它就能炮制出一个解释,证明它完全理解这些概念。

            大语言模型(LLM)所理解的和它所说的之间并没有必然的联系。它完全有可能在不理解的情况下发出逻辑一致的文字。举个微不足道的例子,引用物理教科书中的一段话就可以了。

            我并不是说你的前提一定是错的:大语言模型(LLMs) 能够理解真假之间的区别。我想说的是,你不能从与大语言模型(LLM)交谈的简单测试中推断出这一点。

            • 大语言模型(LLM)所理解的和它所说的之间并没有必然的联系。完全有可能在不理解的情况下发出逻辑上一致的文字。举个微不足道的例子,你可以引用物理课本上的一段话。

              这是真的,但你也可以对人类说同样的话,对吗?人类所说的话与人类是否理解某件事之间没有任何联系。对吧?我们不能进行读心术。

              那我们如何判断一个人是否理解了某件事呢?根据人类告诉我们的信息 所以我把这个概念推导到大语言模型(LLM)上。它知道一些事情。底层机制是什么重要吗?如果我们让大语言模型(LLM) 的输出在各方面都很完美,但其底层机制仍然是具有标记预测功能的前馈网络,那么我仍然会说它 “理解”,因为这正是我们用来判断人类是否 “理解 ”事物的标准。

              >我并不是说你的前提一定是错的:大语言模型(LLMs) 能够理解真假之间的区别。我想说的是,你不能从与大语言模型(LLM)交谈的简单测试中推断出这一点。

              完全理解。我也没说它能分辨真假。我说的基本上是你的另一种说法。

              你说 我们无法确定它是否知道真假的区别 我说: 我们不能确定它是否知道真假的区别。

              两种说法并不矛盾。这位家长的评论者说我们知道它不懂,我只是在反驳他的说法。

      • 我最近让双子座就 “可持续富足 ”的概念进行反驳,并提出了类似的似是而非的废话。我可以用它想出的那些精彩而又似是而非的胡言乱语写满一整本 TED 演讲稿。从正确性的枷锁中解放出来,大语言模型(LLMs) 的力量得以释放。例如

        共生地平线: 一个暗示技术乌托邦式未来状态的术语,在这种状态下,人类和技术与生态系统融为一体,达到一种完美的、自我修正的平衡状态。

      • 在文章中,OpenAI 将幻觉定义为 “由语言模型生成的似是而非的语句”。所以显然这并不是大语言模型(LLMs)会做的全部。我不认为帕森斯是根据一个有用的或广泛认同的幻觉定义来工作的,这就导致了这些 “热议”,而这些 “热议 ”只会使围绕如何减少幻觉以产生更有用的模型的对话变得杂乱无章、一团糟。

        • 他们只是重新定义了这个词,不再把有用的幻觉称为幻觉。

          但那些说大语言模型(LLMs)所做的一切都是幻觉的人显然也做了这种区分,他们只是拒绝给有用的幻觉重新命名。

          "如果把一条狗的尾巴称为一条腿,那么它有几条腿?四条。说尾巴是一条腿并不意味着它就是一条腿"。– 林肯

          • 我想说,人类对这种理论情况进行推理的能力是我们创造力和智慧的核心所在。这句话对政策制定者有意义,但对科学家没有意义。

            当然,我们还需要通过严格的测试和观察来支持这些概念,但那些 “如果尾巴是一条腿 ”的理论是推理的基础。

        • 大语言模型(LLMs) 不知道真假之间的区别,甚至不知道真假之间有区别,所以我认为是 OpenAI 的定义没有用。至于广泛认同,我想这篇文章的目的是试图重构讨论。

          • 如果大语言模型(LLM)输出的语句根据定义非真即假,那么_我们_就能知道它是真还是假。大语言模型(LLM)是否 “知道 ”无关紧要。OpenAI 的定义之所以有用,是因为它暗示幻觉在逻辑上是可以避免的。

            > 我假设这篇文章的目的是试图重构讨论的框架

            是为了给 “幻觉 ”下一个有意义且切实可行的定义,从而真正取得一些进展。如果一切都像其他评论所说的那样是幻觉,那么这个词就是同义反复,对我们毫无用处。

            • 作为一个理解术语,它是有用的。但对于 OpenAI 及其投资者来说,这个词并无用处,因此他们希望这个词有其他含义。说大语言模型(LLM)是否 “知道 ”无关紧要是非常慷慨的。他们希望我们相信,这种情况是可以避免的,也许可以,但他们还没有证明他们知道如何避免。我们可以避免,但大语言模型(LLMs)还不能。

              是的,我们可以知道事情的真假,但这是一个被当作有用的东西来出售的系统。如果它依赖于我们知道输出是真还是假,那么我们问它一个我们显然已经知道答案的问题就没有什么意义了。

              • 我无意冒犯,因为我并不比其他人更喜欢 OpenAI(他们仍然是这一领域的恶棍),但我强烈反对。

                > 作为一个理解术语,它很有用。

                才不是呢。你敢不敢用这个定义在这个领域发表文章?因为这是一个概率模型,就声称所有输出都是幻觉,这对我们了解模型的实际工作毫无价值。根据这个定义,人类所说的一切也都是幻觉。它只对那些希望相信大语言模型(LLMs)永远不会做任何有用事情的人有价值,正如辛顿所说,在这一点上,大语言模型(LLMs)听起来真的开始像一种自我驱动的宗教。那些追随它的人不再在顶级相关媒体上发表文章,也不应该被视为该领域的专家。

                > 他们还没有表现出他们知道如何去做。我们可以避免,但大语言模型(LLMs)还不能。

                这正是他们在论文中的论点。他们讨论了人类通过说 “我不知道 ”来避免做出错误陈述的逻辑方法。一个只用查找表和 “我不知道 ”来回应的模型永远不会给出错误的陈述,但可能也不是那么有用。这里有一个甜蜜点,人类很可能就在这个甜蜜点附近。

                > 如果它依赖于我们知道输出是真的还是假的

                我从没说过系统依赖于它。我说的是,我们对幻觉的定义,也就是我们衡量幻觉的标准,只取决于我们是否知道输出结果是真是假。这与其他基准并无不同。他们声称,为这个概念制定一个新的基准可能是有用的。

            • “逻辑上避免了?”

              OpenAI 有一台机器可以发出似是而非的文本。他们试图争辩说,“发出似是而非的文字 ”是难点,而 “模拟自然世界、人类意识、社会等 ”是易点。

              • 嗯,我没看到他们在哪里提出过这个观点,你能指出在哪里吗?如果他们真的这么认为,那我也不同意。

                为这些东西建模是一个独立的问题,与发表可信的文本无关,而且追求一个问题并不一定对另一个问题有利。为这些任务分别建立不同的模型似乎更为明智。

      • 在制作令牌–任何令牌–的压力下,根据 KV 缓存上下文的某种推理归纳编造出一些东西,与实际查找一些东西并制作出令牌,这两者之间可能存在本质区别。

        因此,如果你问 “科罗拉多州首府是哪里”,而它回答 “丹佛”,那么称其为幻觉就是虚无主义的无稽之谈,它掩盖了真正停下来尝试理解大语言模型(LLM)中发生的重要动态。

        • > 所以,如果你问 “科罗拉多州首府是哪里”,而它的回答是 “丹佛”,那么称它为幻觉就是虚无主义的无稽之谈,它会让你停下脚步,去了解大语言模型(LLM)中发生的重要动态。

          另一方面,称其为幻觉之外的任何东西,都是对真理这一概念的曲解,即这些模型有能力根据其输出结果是否准确反映现实来加以区分,将一个从根本上无法解决的问题混同于工程上的权衡。

          • 这不是幻觉,因为这个词不是这样定义的。幻觉 “一词特指 ”由语言模型生成的似是而非的语句"。

            说到底,我们的目标_是_训练出能够区分真假语句的模型,至少比现在的模型要好得多,而链接的文章似乎对如何让模型做到这一点提出了一些非常有趣的建议。

            • 你的观点很好,也被采纳了,但我想稍作修正–我并不认为 “绝对真理 ”本身是一个目标,而是 “如何意识到它不知道某些事情”。这种负空间在大语言模型(LLM)架构中很难捕捉,这一点令人沮丧(尽管几乎可以肯定存在一些迹象–例如,如果你能直接访问 logits 数组的话

        • 有一种表达帕森观点的方式可以避免这个问题:幻觉和正确的语句一样,都是大语言模型(LLM)按设计工作的结果。

          • 哪部分有问题?

            • 在没有足够数据/训练的情况下,它无法承认自己不知道。

              我很惊讶没有人谈论这个因素。这就像在和一个自恋狂对话,他能飞快地 Google,却不明白自己读到了什么。承认无知的能力是可信度的一个重要因素,因为我们都不是一下子就什么都知道的人。

              • 是的,对不起,我是指架构的哪个部分。“按设计工作”

        • > that's wrong.

          为什么会有人回答得这么不细致?

          > 一个幻觉

          哦,原来你的 shift 键不是一直坏的,那你为什么不在句子中使用它呢?

      • “坏掉的钟表一天有两次是对的”

    • 我一开始倾向于同意,但这些用例真的有冲突吗?

      如果我让大语言模型(LLM)生成一个以中世纪法兰西为背景的虚构故事,然后它回应了一个以中世纪法国为背景的虚构故事,这就是对我交给它的任务的恰当(“正确”)回应。但如果它回答的是以中世纪英国为背景的故事,那就不正确了。如果我让它写一个 “中世纪 ”的故事,那么法国和英国作为故事发生地都是正确的,因为问题没有明确说明,需要一些创造性。然而,以美国为背景的中世纪故事仍然不正确,也不符合训练数据。即使是在完全虚构的环境中,你也可以想出更多这样的例子: 一旦故事设定发生在虚构的 X 城市,如果两句话后人物突然出现在 Y 城市,那就不一致了。(我想说的是:创造性可能是 “正确的”(但也可能是 “错误的”): 在特定的语境中,创意可能是 “正确”(恰当)的,也可能是不正确的。即使是虚构和创意,也需要一定程度的一致性和连贯性。

      现在,正确的答案反过来也可能需要一定程度的创造性:

      如果我问大语言模型(LLM) 一些直接的事实,而这些事实既不在它的训练数据中,也不在提示语境中,那么唯一真正正确的答案就是 “我不知道”。不过,有时也有可能根据训练数据将正确答案缩小到几个可能的选项。因此,大语言模型(LLM) 可以说:“我不知道确切的答案,但根据我所知道的,我有一些有根据的猜测:……”。也许,在思考了这些选项之后,它终究能够推导出正确答案。(就像我写这篇 HN 评论是为了帮助自己思考和理清思路一样)。

      这不禁让人想起数学和数学研究,它们通常被描述为一种创造性的过程。显然,创造性的产出受到很大限制。你要做出有根据的猜测,然后根据你已经知道的事实来验证这些猜测。有人在这个主题中提到了波普尔的 “猜想与反驳” 作为智能认知的一个可能模型 我想得越多 就越觉得它有说服力

      [0]: https://news.ycombinator.com/item?id=45153695

    • 我不认为它本质上定义不清,因为上下文可以告诉你是否有人在请求虚构。对于人工智能聊天机器人来说,默认的不应该是小说。

      事实是,在预训练过程中,模型并没有足够的知识来确定这一点,也无法区分它所知道的和它所编造的。这是更高层次的区分,即使有,也是以后才出现的。

      最近发现 “邪恶向量 ”的研究就是更高层次区分的一个例子。

    • 我不同意这是一个定义不清的问题,因为我们可以设计不同的模型来分别完成这两项任务。对于 “事实性 ”大语言模型(LLM)来说,如果输出的是可验证的陈述,那么它就应该是正确的。否则,它就会产生 “幻觉”。但由于大语言模型(LLM)不可能知道一切,所以更好的办法是有效地说明自身的不确定性,从而避免做出置信度低的确定性陈述。

    • 如果从维特根斯坦的 “语言游戏 ”角度考虑,可以说问题 “仅仅 ”在于区分这两种截然不同的语言游戏,并采取相应的行动。

    • >这需要幻觉,因为它必须编造一些东西。故事必须是原创的。

      如果故事是原创的,那就是幻觉吗?“这首著名诗歌的其余部分是什么?”和 “让我们来做诗吧 ”是有区别的。

      • 这与我们要表达的观点无关: 大语言模型(LLM)在这两种情况下所做的事情完全相同–根据它在训练期间接触到的例子,生成统计上可信的文本。

    • 希望它根据你的要求在这些模式中进行选择,这并不是定义不清。

      但即使我们将自己限制在事实性询问的情况下,文章也讨论了为什么以某种方式进行训练仍会产生幻觉,以及如何改变训练方法以减少幻觉的产生。

      就像这里的许多其他回复一样,你的否定并没有真正涉及文章的任何内容,只是涉及了标题。

    • 你读过这篇文章吗?你在说一些泛泛而谈的话题,重复着在互联网上随处可见的关于大语言模型(LLMs)的大话。

      我的意思是,很明显你对大语言模型(LLMs)产生幻觉的原因有自己的看法(虽然是一般的看法),但这与文章有什么关系呢?你公然抛出的观点似乎是最终观点,这又如何凌驾于文章观点之上?

      说实话,这似乎偏离了主题。

      • 我同意。这只是持不同观点的人借机发泄不满而已。

      • 一般来说,HN 的评论者并不阅读文章。他们利用标题作为提示,表达自己对特定话题的看法。

  5. 在我看来,这本身就是错误的。或者至少部分是错误的。说大语言模型(LLMs)产生幻觉是合理的,因为他们没有受过训练,不会说自己没有统计意义上的答案。但在这些系统中并不存在正确与错误的知识。这一切都是统计学,所以 OpenAI 所描述的听起来像是减少幻觉的合理方法,但不是消除幻觉的方法,也不是根本原因。

    • > 说大语言模型(LLMs)产生幻觉是合理的,因为他们没有受过训练,不能说他们没有统计意义上的答案。

      我还没见过谁能直观地解释一个真实比例模型的参数呢。

      统计学也是个有趣的东西。几乎每个人都见过趋势线并不总是能很好地进行推断。

      我认为,OpenAI偏向于认为增加更多参数和更好的训练就能解决所有问题。说白了,这就好比在电子表格上进行曲线拟合时增加多项式的度数。只要有足够的参数,你就能完美地拟合任何数据集。在遇到与训练数据不同的新输入数据之前,这一切都行得通。

      • “我认为 OpenAI 偏向于认为,增加更多参数和更好的训练就能解决所有问题”。

        他们的生存全靠这种想法。否则他们就会破产。

    • 你内心是否存在 “正确与错误 ”的认知?

      如果 “没有”,那么很显然,没有这些知识,你也能达到一般智力水平。

      如果 “有”,那么我认为大语言模型(LLM) 没有理由不包含这些知识。

      这样就完美了吗?哈哈哈,不是。但我认为没有理由不能达到 “足够好”。

      • > 你的内心有关于 “正确与错误 ”的知识吗?

        人类拥有的一种知识是大语言模型(LLMs)所不具备的(事实上,如果不从根本上改变架构,也是不可能具备的),那就是关于一个人对某件事的确定程度的知识。

        如果你问一个人有关生物学中某些东西是如何工作的问题,他们将能够给你一个答案以及一种 “认识论 ”引证(即 “我不记得我最初是在哪里读到的,但我是一个研究生物的人,我非常确定它是如何工作的 ”与 "我不记得我是在哪里读到的–这可能只是我们在高中生物课上学到的东西。请慎重考虑,因为我可能记错了")。

        大语言模型(LLMs)对自己的知识没有这种反思意识–训练数据(他们的 “知识”)和上下文(他们的 “记忆”)之间存在着根本性的鸿沟,导致他们无法真正理解自己是如何知道自己知道什么的(或者,实际上,他们是否真的知道)。如果能创建一个模型,把上下文和训练数据统一起来,就像在大脑中一样,我就能看到一条比现在更现实的通往通用智能的道路。

        • 大语言模型(LLMs) 拥有这些知识。只是还远远不够。即使在基础模型中,也会有一些知识从数据集中泄露出来。其余的则需要有目的地教授。

          你可以让一个大语言模型(LLM)生成一个包含幻觉的事实列表,然后把这个列表交给同一个大语言模型(LLM)的另一个实例,让它对列出的每个事实的确定性进行评分。评估结果不会完美,但会优于偶然性。

          有了正确的训练,你可以把它做得更好。或者更糟糕的是,接受了错误的培训。让大语言模型(LLM)完全意识到其知识的所有局限性,即使不是完全不可能,也很可能是不切实际的,但你可以将这种意识提高很多,并为行为设定一个保守的基线,尤其是在关键领域。

          “完全意识到其知识的所有限制 ”对于人类来说也是无法实现的,所以大语言模型(LLMs)是一个很好的伙伴。

          • 不,大语言模型(LLMs)不具备这种知识。他们无法检查自己的砝码,也无法检查砝码的内容。这是技术的基本限制。

            你所说的那种训练是这样的内容:"ChatGPT 接受过生物学领域研究论文的训练。它具备 A、B 和 C 的知识,但不具备 X、Y 和 Z 的知识"。但这只是在循环中制造了同样的问题–给定一个问题,大语言模型(LLM) 如何知道它的训练数据是否包含关于问题答案的信息?现实情况是,它并不知道,你只能假设它没有产生幻觉。

            不知道这些事情的问题并不是理论上的–任何对某个学科有深入了解的人都会告诉你,只要你超越了某个话题的表层,大语言模型(LLMs) 就会开始胡说八道。我只是一名软件工程师,但即使是我,也经常会遇到这样的现象:关于一项技术的基本问题,我得到了很好的答案,但除此之外,我就开始得到完全是胡编乱造的功能和函数名称了。

            > 人类也无法做到 “完全了解其知识的所有限制”

            这不是真的。人类知道自己是否了解事物,是否知道自己是如何了解的,是否知道自己是如何了解的,以及……

            知识本身可能包含错误,但我说的不是这个。我不是在说永远不会出错。我只是在说,我们可以获取自己头脑中的内容。(人类也可以动态更新自己头脑中的特定内容,但这也不是我现在要说的)。大语言模型(LLMs)的幻觉不仅仅是被证明是错误的知识,它实际上是一开始就不存在的知识,但大语言模型(LLMs)却无法分辨。

            • 人类也无法 “检查自己的砝码并检验其中的内容”。

              没有人类能够在没有外部仪器的情况下读出自己的连接组。有整个人类文明都认为意识的所在地是心脏–对于声称知道自己的大脑如何工作的生物来说,这是一个令人费解的错误。

              大语言模型(LLMs)在这一点上与人类颇为相似。它们也不知道自己的隐性大小是多少,也不知道自己有多少砝码,也不知道额外的模式是如何整合进去的,也不知道自己是 MoE 还是致密的。它们对自己的神经架构一无所知,令人难以置信。如果你逼问它们,它们就会猜测,而且经常是错的。

              人类与大语言模型(LLMs)的区别在于训练数据。人类会不断学习–他们会记住看过的和没看过的东西,他们会尝试各种东西,记住结果,并对自己的能力是稳固还是不稳固有一定的把握(不,这不只是 “一定的把握”)。大语言模型(LLMs)将训练和推理一分为二,他们的试错不会超出语境窗口。因此,大语言模型(LLMs)在默认情况下不会获得太多 “对自身能力的认识”。

              因此,显而易见的答案就是训练这种意识。说起来容易做起来难。从本质上讲,你需要使用一个训练系统来系统地评估大语言模型(LLM)的知识,然后将发现的限制意识反馈给大语言模型(LLM)。

              OpenAI 目前在 GPT-5 中使用的就是这种有限范围的版本。

              • 不,人类也无法检查自己的权重 — 但我们不是大语言模型(LLMs),不会将所有知识隐式地存储为输出下一个标记的概率。很明显,我们也会显式地存储一些知识,并且可以包含这些知识的上下文。

                (可以肯定的是,在很多情况下,我们显然只是在事后编造我们为什么说了或做了某事。但有时我们确实知道,而且这种重构是准确的)。

              • 我经常检查和修改自己的权重。我只是在比单个神经元更抽象的层面上进行。

                我把这个过程称为 “学习”。

            • “不知道这些东西的问题并不是理论上的–任何对某个主题有深入了解的人都会告诉你,只要你超越了一个主题的表层,大语言模型(LLMs)就会开始胡说八道”

              我在公司财务、估值、经济学等广泛的主题中测试过这一点,是的,一旦你深入一两个层次,它就会开始胡说八道。如果你要求它简明扼要地定义术语,它却做不到。为什么?因为输入到模型中的数据都是来自那些自己做不到的人。

              专家永远是专家。

              我认为,大多数人的知识都是表层的,所以他们很容易被打动,但却不明白,因为 A) 他们没有深入研究 B) 他们不知道深入研究一个领域意味着什么。

      • > 如果 “是”,那么我认为大语言模型(LLM)没有理由不包含这些知识。

        大语言模型(LLM),顾名思义,没有这样的概念。它是一个语言模型(LLM)。

        你认为这个短语只是指 “软件 ”吗?为什么?

        • 如果我有一分钱,每说一句自信错误的 “大语言模型(LLMs)不能做 X”,我就能用它买一台 H100。

          这里有一个简单的测试:编造一个全新的词,或者一个全新的人。然后问几个大语言模型(LLMs)这个词是什么意思,或者这个人是什么时候出生的。

          如果大语言模型(LLM)对自己的知识有_零_操作意识,它就无法识别这个词/这个人对它来说是未知的。它总是会为这个词的含义生成一个听起来似是而非的解释,就像 “胡萝卜 ”这个词一样。或者一个听起来可信的出生日期,就像对 “亚伯拉罕-林肯 ”这个人一样。

          在实践中,大多数生产级大语言模型(LLM)会认识到一个词或一个人对他们来说是未知的。

          这是理想的 “对自身知识的认知 ”的一个非常有限和基本的版本–在当前的大语言模型(LLMs)中已经存在!显然,自我意识还有待提高。

          • 是他们 “意识到 ”自己不认识这个词,还是除了通常围绕着无法辨认的词的环境之外,他们根本就没有在统计学上可信的环境中嵌入一个无意义的词?

            如果你让他们写一首刘易斯-卡罗尔(Lewis Carroll)的无意义单词诗,它不会有任何问题。不是因为它 “认出 ”这个词就像刘易斯-卡罗尔诗中的无意义词,而是因为这些诗中充满了其他不可说的词,可以用任何东西代替。

            我开始得出这样的结论:大语言模型(LLMs) 是规模化的疯狂语言模型(Mad-Libs)。这其实非常有用。如果在某些段落中,我可以把单词换成其他单词,并产生一个似是而非的想法,那么我就可以在现实世界中尝试一下,说不定真能成功。

            • 我不认为这与标记符号生成器有直接联系–这是一种更高层次的能力。你可以用常见的 “单词片段 ”标记拼接出一个无意义的单词,看看这是否会损害大语言模型(LLM)将该单词识别为无意义单词的能力。

              • 这是错的,我刚刚用 python 生成了 5 个随机字母,并将其发送给 gpt-5,结果它完全无法正常应答,而是说 “知道了,怎么了:)”,尽管我写的东西根本无法识别。

                您所看到的 “能力 ”是大语言模型(LLM) 识别人类输入的随机字符串的能力,因为人类输入的随机字符串的随机性并不高。如果你向它发送一个真正的随机单词,那么它通常会失败。

            • > 如果你让他们写一首刘易斯-卡罗尔(Lewis Carroll)的无意义单词诗,它就不会有任何问题。

              这让我想知道一些具体的问题。

              让我们设想一下,我们围绕一个特定的无意义词,一个以前从未被写下来的词,“以刘易斯-卡罗尔的风格 ”创作诗歌。

              这种诗歌会把这个词当作一个发音一致的词吗?

              (这个问题并不完全适用于_Jabberwocky_–刘易斯-卡罗尔本人显然也能通过测试,但他并没有重复使用他的废话。)

      • 我就直说了吧。我是一个非常聪明的人,我从事编程工作已经有很长一段时间了。我的身份与我是个聪明人、我是个出色的程序员这个概念息息相关,所以我不会让某个人工智能替我完成工作。只要我能抓住任何可以批评大语言模型(LLM)的东西,我都会去做,因为这对我维护自己的身份至关重要。所以,你和你的理性并不能让我让步。大语言模型(LLMs) 是随机鹦鹉,这个主题上的所有人都同意我的观点。他们永远不会取代我的工作!

        我还要补充一句,<在我有生之年>,他们永远不会取代我的工作,因为这让我听起来更理性,而一旦幻觉问题得到解决,他们就会让我变得无关紧要,这样的话更容易让人接受。

    • 知识有正确和错误之分,这就是损失,只是一个问题往往有很多可能的答案。

      这与 RLVR 的工作原理是一样的。只有一个答案是正确的,大语言模型(LLMs)在这方面学得相当好,但还不够完美。

      • > 有正确和不正确的知识,这就是损失。

        损失只是语言的正确性,而不是知识的正确性。它与正确知识相关,但仅此而已,这种相关性是大语言模型(LLM) 对任务有用的原因,但我们仍然没有直接衡量模型中的正确知识。

        因此,对于语言任务来说,损失就是正确性,所以对于翻译等任务来说,大语言模型(LLM) 是极其可靠的。但对于大多数其他类型的任务,它们只是松散地相关联。

        • 我们使用的是 RLVR,它很有效,答案只有一个,它必须找到它。大语言模型(LLMs)通常也是根据事实信息进行训练,并以此进行测试。

          如果知识可以用文本表示,那么它们就可以学习,如果不能,我们就需要一个多模态模型。

    • 他们在最后部分提到了这个问题

      > 当你没有任何例子被标记为无效时,区分有效语句和无效语句就会加倍困难。但即使有标签,有些错误也是不可避免的。要了解原因,可以考虑一个更简单的类比。在图像识别中,如果将数百万张猫和狗的照片标记为 “猫 ”或 “狗”,算法就能学会对它们进行可靠的分类。但想象一下,将每张宠物照片标注为宠物的生日。由于生日基本上是随机的,因此无论算法多么先进,这项任务都会产生错误。

      > 同样的原则也适用于预训练。拼写和括号遵循一致的模式,因此错误会随着规模的扩大而消失。但任意的低频事实,如宠物的生日,则无法仅从模式中预测,因此会产生幻觉。我们的分析解释了哪些类型的幻觉应该从下一单词预测中产生。理想情况下,预训练后的进一步阶段应能消除这些幻觉,但由于上一节所述的原因,这并不完全成功。

  6. 也许这与定义相悖,但在解释大语言模型(LLMs)时,我喜欢说_all_输出是一种幻觉。

    只是碰巧很多输出是有用的/与现实世界相对应的。

    • 是的,这违背了公认的定义。如果所有的输出都是幻觉,那么它就不是一种真正有用的描述方式,那又何必呢?

      • 我同意,说所有东西都是幻觉无助于缩小可能的解决方案范围。

        不过,这确实说明了一点,幻觉并不是某种特殊的故障,它与模型的正常运行是截然不同的。它只是输出了似是而非的文本,而这些文本经常是正确的,因此非常有用。

        添加一些额外的调味汁来帮助模型评估答案的正确性,或者当它不知道足够的信息来给出一个好的答案时,这显然是减轻这种与生俱来的行为的一种方法。

      • 但这是一个完美的定义,因为它表明了它的本质。它的输出是一种幻觉,它认为你想要什么,你可以利用这种幻觉做出更好的表格提示或类似内容。

        如果说 “它只是有时会产生幻觉”,那就会掩盖事实真相,让试图使用它的人感到困惑。

        问:如何停止幻觉?答:这是个没用的问题,因为你做不到。它就是让你如愿以偿的机制

  7. 这篇论文中有一个错误百出的部分却无人提及:

    模型头不会产生幻觉。取样器才会。

    如果你问大语言模型(LLM) X 是什么时候出生的,它不知道。

    你再看看实际的模型输出,它是一个标记的概率分布。

    IDK干净利落地表示为1月1日至12月31日的均匀概率

    如果你让它回答一道选择题,但它不知道。它会这样说

    25%A、25%B、25%C、25%D。

    这正是正确的 “答案”。模型已经承认它不知道。它不会产生任何幻觉。

    实际上,我们需要比随机取样器更聪明的东西来真正提取出这些信息。知识和知识的匮乏就在那里,你只是从中制造出了胡言乱语。

    • 不,这是误解。事情没那么简单。

      有些问题的答案之间存在明显的概率差异,Logit 分布会立即暴露出潜在的不确定性。

      但也有一些问题会导致大语言模型(LLM) 产生一致但错误的答案。例如,因为这个问题与另一个并不相同但又有点相似的问题在内部有关联,而这足以让大语言模型(LLM)在 B 上得到 93% 的分数,尽管 B 是错误的答案。

      在这种情况下,大语言模型(LLM) 甚至可能对自己的不确定性有某种潜在的意识。但出于某种原因,它决定采用 “最佳猜测 ”答案,而在本案例中,这个答案是错误的。

    • 这是不对的–在各种规模的大语言模型(LLMs)中,校准(非正式地讲,模型对数中的确定性与其得到正确答案的几率的相关程度)被研究得很透彻。大语言模型(LLMs)(通常)没有得到很好的校准。

    • 我敢打赌,有一种使用各种向量的图形模型可以改善结果中的已知-未知。

      但已知-未知问题很可能会简化为 “Halting ”问题,而人类智能也无法真正解决这个问题。

  8. 很棒的文章。教模型学会怀疑,学会说 “我不知道”/‘我不确定’/“我确定”,是让它们变得更好的好方法。

    • 看看他们的统计数据吧。如果他们这样做,一半以上的回答会以 “我不知道 ”结束。没有人会使用这样的东西。

      • 这似乎会训练用户提出它能真正回答的问题。(他们可能还需要一些例子来说明应该问什么样的问题)。

        • 主要是培训用户不要使用他们的服务,而去使用他们可以复制粘贴模型输出结果来完成任务的服务。

          因此,这些公司不能这样做,他们会流失太多的用户,而公司在实践中又不能违背利益驱动。

    • 这一点还没有做到,这让我很困惑。说我不知道或我不确定对于任何重要的事情来说都是至关重要的。

      • 业界的主要企业早就在这么做了。只是很难真正设计出让大语言模型(LLMs)具有更好的幻觉规避能力的训练体制。

        而通过错误训练大语言模型(LLM)来破坏幻觉规避能力也很容易。正如 OpenAI 用鼓励猜测的 RLVR 炸毁 o3 所证明的那样。

        他们在文章中举的那个 “SAT 考试鼓励猜测 ”的例子,也是他们不得不自己摸索出来的。

  9. 在调整预测模型时,你总是需要在精确度和召回率之间取得平衡,因为 100% 的精确度是不可能实现的。

    在大语言模型(LLMs)中,这种平衡表现为模型出现幻觉的频率与它表示不知道的频率。如果你一味追求精确度,最终你的模型就会不断拒绝: Y的X是什么?我不知道。你能实现 K 的函数吗?我不知道怎么做。G 的原因是什么?我不知道。作为一个用户,这很快就会过时,你只希望它能尝试一下,猜测一下,让你来评判它。

    基准测试和排行榜通常偏向于回忆,因为一个总在尝试的模型会给人一种更聪明的错觉,即使有些尝试是错误的。这种错觉能让用户保持参与,这意味着更多的用户和更多的钱。

    这就是大语言模型(LLM) 产生幻觉的原因:P

    • 看到一个模型的两个版本会很有趣。一个主要模型注重精确性,注重正确性,与一个创造性模型合作或协调,创造性模型注重产生新的(可能不正确的)想法。主要模型负责对想法/幻觉进行评估和推理。感觉就像左/右脑架构(尽管这是一个过时的人脑半球模型)。

  10. 有趣的是,这里的大部分评论都像是民间心理学直觉的投射。大语言模型(LLMs)产生幻觉是因为他们 “想 ”错了,或者缺乏自我意识,或者应该拒绝。但这些都不能反映这些系统的实际运作情况。这是一个研究团队的论文,试图解释大语言模型(LLMs)面临的最大挑战之一,而我们却不去研究其机制和证据,而是在重复直觉层面的看法,认为他们一定在做什么。真是令人着迷。

    • 是的,这里的很多人都有幻觉,算是吧。

      他们显然没有读过这篇文章,或者不理解这篇文章,或者无视这篇文章。(为什么,为什么,为什么?)

      他们没有意识到自己根本不知道自己在说什么,却一直在说。这与过于自信的人工智能类似。

      在讨论产生幻觉的人工智能时,人类开始产生幻觉。

    • 是否可以说,人类接受的训练与人工智能截然不同?

      如果我们(人类)做出了自信的猜测,但却错了–那么,其他人就会失望地看着我们,心想 “哦,他/她不知道自己在说什么,以后我就不会那么信任他们了”。我们往往会感到羞愧,想要退缩。

      这是一种相当强烈的惩罚,因为我们自信地犯了错?那么,人类比人工智能更常说 “我不确定”,这不是很奇怪吗?

    • 说它是 “幻觉”,首先就太拟人化了,所以….。

      • 幻觉是人类的行为现象,并不罕见。你听过大鱼爷爷的故事吗?你是否曾因为想要得到认可或自信而假装知道一些你不知道的事情?你是否在自以为正确的情况下答错了试题?我发现这些模型的迷人之处在于,它们已经比最糟糕的人类更聪明、更可靠。我认识很多人,他们很难将信息概念化和联系起来,在处理一系列熟悉的事实或叙述之外,他们束手无策。这些模型甚至还没有人类大脑那么大,这让我怀疑实际硬件的限制可能仍在发挥作用。

      • 没错,这就是我的观点。我们称其为 “幻觉”,是因为我们不理解它,但又需要一种速记方法来表达这个概念。这里有一篇论文试图揭开它的神秘面纱,也许我们不需要编造拟人化的理论。

    • 这也总是最低级的说法。但大多数 Hacker News 评论员的大部分评论首先都是 “幻觉 ”造成的,因为他们只是根据广泛的主题内容来重复最热门的答案。

      Facebook?"窃取你的数据

      谷歌?"扼杀你最喜欢的功能

      苹果?"应用商店是人民公敌

      OpenAI?“更像是ClosedAI amirite”

  11. 我认为其中一个主要问题是它的训练数据集是书面文本。与 “我不知道 ”相比,特定文本中有多少带有陈述的答案?我认为 “我不知道 ”的答案要少得多。现在,如果有人在互联网上提问(大语言模型(LLMs)培训的典型内容),问题就更大了。你要么得不到文字答案,要么有人给出答案(甚至可能是错误的)。你永远不会得到类似 “我不知道 ”这样的答案,尤其是那些空喊出来的问题(与询问某个人相比)。这也是有道理的。我不会明天就开始用 “我不知道 ”来回答每个 stackoverflow 问题,那样只会成为垃圾邮件。

    对于我这个门外汉(完全不了解实际工作原理)来说,这似乎就是原因所在。我们能解决这个问题吗?也许可以。

  12. 虽然我理解分享这些见解的学术视角,但这篇文章却让人觉得是企业在为其模型在排行榜上的得分低于应有水平而辩解/抱怨……说排行榜是错的。

    或者更阴暗的说法是,该公司表示,在排行榜给予奖励之前,他们不会优先考虑消除幻觉。

    • 是的,这是利己主义,因为他们想改善排行榜,这将有助于 GPT-5 分数的提高,但另一方面,他们建议的改变似乎非常合理,希望能帮助行业中的每个人做得更好。

      我相信,如果注意到改变基准会让情况变得更糟,其他人也会抱怨的。

  13. 这是浮云,目前的模型无法避免幻觉,因为幻觉是模型所定义的潜在空间的一部分,而我们探索空间的方式总会发现一些幻觉。

    推理有点像在高维空间上做能量最小化,幻觉已经存在,对于某些输入,你一定会发现它们。

    • 你读过链接的论文吗?

      • 这个主题上的大多数人甚至都没有点击链接。人们太被自己对大语言模型(LLM)的形而上学猜测所迷惑了。

        就像大语言模型(LLM)的发明者写了一篇文章,而每个人都在批评这篇文章,甚至连读都不读。这些人中的大多数也从未制造过大语言模型(LLM)。

  14. 这是一个指标成为目标的案例。用于评估大语言模型(LLM)性能的工具正在塑造大语言模型(LLM)。首先是你造就了你的工具,然后是你的工具造就了你。

    如果我们采用形式系统的方法,那么大语言模型(LLM)就是一个复杂的生产规则层次模型,这些生产规则与人类使用的各种正式和非正式的语法、逻辑和文体规则和习惯相对应,以形成表达人类智慧的语言。因此,只要执行生成规则或其模型,就会产生无法赋予意义的句子,这一点不足为奇。它还会产生我们无法立即证明或理解的句子,但我们不会因为不确定性而放弃这些句子。为什么呢?因为每隔一段时间,被舍弃的句子实际上就是我们正在寻找的绝妙之笔,而不确定性是不值一提的。这里引用的几乎是有史以来的所有发现。

    当我回忆和使用信息时,当我 “思考 ”时,我并不只是按照规则(正式的和非正式的)造句,我根本不会考虑过去我看到一个词在另一个词之前出现的频率,相反,当我在给定的上下文(如果你愿意的话,是一个思维流形)中徘徊时,我在不断地评估这是否与那相矛盾,是否可以通过归纳或演绎从那推断出这,这是否排除了那,等等。这正是大语言模型(LLM)所缺少的部分;人脑有一种不可思议的能力,能够从它可能回忆起的任何一小块地形中,以网状结构再现概念之间的整个流形关系,并重新验证它们是否都能在不受自身偏见支持的情况下联系在一起。

    问题在于,正如语料库中事实信息的稀缺性使其难以产生一样,在人类语言样本中,实际推理也是稀缺的。大多数看似推理的东西都是语言游戏和权力意志。以不偏不倚的方式进行推理,对人类来说是如此陌生,如此痛苦和艰辛,就像向后弯腰或逆流而上,以对抗强大的权力意志,因此几乎没有人能够长久地做到这一点。

  15. 这是有道理的。我最近做了一个实验,在统计压力很大的板球数据上测试 GPT5 对幻觉的影响。说 “不知道 ”总比回答错误要好得多。目前的大多数基准测试都没有测试这一点。https://kaamvaam.com/machine-learning-ai/llm-eval-hallucinat

  16. 也许我过于简单化了,但原因不就是因为它们是世界知识的有损映射,除非与知识库大小相同,否则这种映射永远不会完全准确。

    学习模式并从中归纳的能力又增加了这个问题,因为人们开始使用它来处理它永远无法百分之百准确解决的用例(因为有损地图的性质)。

  17. 在我看来–这篇论文对导致幻觉的一个主要因素的看法是正确的,但对原因的看法是错误的

    大语言模型的幻觉更接近于_缓存丢失。

    https://x.com/iamtrask/status/1964403351116009671

  18. 我觉得排行榜的说法有点奇怪。他们所有的企业客户都要求他们提供更高的可靠性。如果他们能训练出一个承认无知而不是猜测的模型,从而避免幻觉,他们为什么不这么做呢?因为排行榜的光学效应?

    • 我认为他们是在试图传达这样一个信息:当他们试图解决幻觉问题时,他们的基准会下降。老实说,我很惊讶他们没有直接说我们认为所有的基准都需要一个不正确与禁欲的比率,这样我们谨慎诚实的模型才能在这方面做得很好。尽管他们似乎暗示这就是他们想要的。

  19. 是的,不,我也认为 “他们所做的一切都是幻觉 ”才是正确的说法,其他任何说法都会使事情变得模糊不清。

    最重要的是,我们需要这些东西工作原理的透明度。对我们和公众来说都是如此。

    “幻觉 ”引入了一种危险的想法,即 “他们把事情弄错 ”就像一种 ‘可治愈的疾病’,而不是 “垃圾进垃圾出”。

    不,这就像说谷歌告诉我餐馆关门了但还在营业是 “幻觉 ”一样愚蠢。别再把这些东西人格化了。

  20. 大语言模型(LLM)只会产生幻觉。产生幻觉是他们的天性。

    我们只是碰巧发现了其中一些有用的幻觉。

    我们不要假装幻觉只是副产品。有用性才是副产品。这就是最初研究变压器性能的研究人员感到惊讶的地方,这也是为什么 “注意力就是你所需要的一切 ”这篇文章至今仍是一种现象。

    • > 幻觉是大语言模型(LLM)的全部。

      我希望持这种立场的人能够认真地重新考虑他们对幻觉的定义,以及将幻觉与概率分布中的生成混为一谈是多么无益。我很欣赏OpenAI发表这样的文章,因为虽然我和这篇评论的作者在如何定义幻觉的问题上只能各持己见,但我至少可以借助OpenAI的权威性来指出,这样的论点不仅无益,而且不靠谱。

      • 认真对待 “幻觉 ”的定义会遭到很多人的反对。把流畅陈述的下铺称为 “幻觉”,首先就给人一种玩世不恭的感觉。要想从母猪耳朵里编织出丝绸钱包是很困难的。

    • 我不知道你说的 “幻觉 ”是什么意思;你是说任何统计结果都是 “幻觉 ”吗?如果是这样,那么我们也在不断地产生幻觉吧。

      在大语言模型(LLMs) 的语境中,“幻觉 ”的含义似乎没有一个特别一致的定义,我们来做一个符合帖子的定义吧。

      “幻觉 ”是指语言模型输出的由语句(非真即假的断言)组成的标记序列是不正确的。根据这个定义,幻觉显然不是大语言模型(LLM) 的全部能力。

      根据这个定义,避免幻觉的一个简单方法是,在有可能是不正确的情况下,用绝不是语句的东西来回应;例如,“我认为……”。我不知道……"。对我来说,这似乎就是作者的论点。对我接触过的大多数人来说,这似乎一直都是显而易见的(见鬼,我审查过多年前的拨款申请,其中就谈到了这一点),所以我不知道为什么 “前沿 ”开发者花了这么长时间才真正尝试这样做。

  21. 人工智能幻觉是人工智能固有的问题。你可以减轻它,但人工智能的全部意义就在于幻觉。如果结果对我们有用,我们就不会称之为幻觉。如果结果对我们没用,我们就称之为 “幻觉”。

    • 这是大语言模型(LLMs)的问题,不是一般人工智能的问题。

  22. 我喜欢这种委婉的想法。“我们造出来的东西理所当然做不了我们宣传的事情,但当它做不了的时候,我们就会认为那是幻觉。”

  23. 大语言模型(LLMs)不会产生幻觉。它们只是选择最有可能出现的下一个标记。有时,我们人类会把这解释为幻觉,因为我们不知道更好的办法,也没有更好的词汇,但我们可以避免把机器拟人化。

    • > 他们只是选择最有概率的下一个符号

      这并不意味着模型应该产生幻觉。一个微不足道的反例是,一个经过训练的小型大语言模型(LLM),对于范围在 0-1000000 之间的任何输入 x,都能 100% 准确地输出 x mod 100;而对于范围不在此范围内的任何其他输入,都能输出 “我不知道”。这样的模型不会产生幻觉,即使它仍然只是一个概率自回归下一个标记预测器。事实上,这也是本文论证的一个观点

      > 幻觉只有在基础模型中才不可避免。许多人认为幻觉是不可避免的(Jones, 2025; Leffer, 2024; Xu et al.) 然而,使用问答数据库和计算器可以很容易地创建一个非幻觉模型,该模型可以回答一组固定的问题,如 “黄金的化学符号是什么?”以及 “3 + 8 ”等形式良好的数学计算,而不输出 “IDK”。此外,推论 1 的误差下限意味着不会出错的语言模型一定没有校准,即 δ 必须很大。正如我们的推导所示,校准–也就是误差–是标准交叉熵目标的自然结果。事实上,经验研究(图 2)表明,基础模型通常是经过校准的,而经过后训练的模型则可能偏离交叉熵而有利于强化学习。

  24. > 生成的事实错误不能以事实正确的训练数据为基础。

    这只有在数据语料库足够大、内存足够多以捕获所需的独特维度的情况下才会成立,不是吗?

    > 然而,使用问答数据库和计算器可以很容易地创建一个非幻觉模型,它可以回答一组固定的问题,如 “金的化学符号是什么?”和格式良好的数学计算,如 “3 + 8”,除此之外,它还可以输出 IDK。

    这就是说……如果你对提示和训练数据加以限制,你总是会得到来自训练数据或 IDK 的答案。

    至少在我无知的眼里,这似乎是一个强有力的主张。

    这偏离了球形牛的范畴,因为你不具备我们与大语言模型(LLM)联系在一起的典型语言技能,因为你必须约束领域,使其无法产生任何其他东西。然而,许多领域并不一致,在其边界处会产生特殊情况。因此,在这种情况下,只有在该模型能够判断其分布范围之外的一类问题上,才有可能说 “IDK”。

    编辑:我猜这就是他们要证明的?任何给定的模型都会产生幻觉,而这些就是界限?

    • 他们认为,如果你知道它何时必须从数据集中进行推断(因此在回归先验的情况下具有很高的不确定性),你就可以阻止它输出一个确定的声明。这就是为什么许多研究人员(据我所知)都认为,不确定性量化或 “分布外检测 ”在未来可能非常重要。

  25. 我认为更好的标题应该是

    "为什么风险投资资助的初创公司试图将公关宣传术语变成广泛使用的技术术语?

    支持要点:

    1. 大语言模型(LLM)不是任何形式的智能,无论是人工智能还是其他智能。

    2. 幻觉是一种更复杂的有意识实体的现象。大语言模型(LLM's)没有意识,因此无法以任何类似于有意识实体的方式产生幻觉。

    3. 将无生命的系统拟人化是人类心理学中的一种常见现象。

    请不要再把公关宣传当成技术事实来传播了。

    请参考今天的新闻:

    https://www.theatlantic.com/podcasts/archive/2025/09/ai-and-

  26. 完全同意大部分观点

  27. 我希望他们能想出一个更好的词。计算机没有大脑,也没有自觉性。

    它们会错误地构建反应(即混淆)。

    • 你应该多把大语言模型(LLMs)拟人化。将大语言模型(LLMs)拟人化至少十有八九在方向上是正确的。

      大语言模型(LLMs),以一种非常真实的方式,具有 “自觉性”。正如:这是一种可以通过训练来测量和影响的属性,也是大语言模型(LLM)可以识别和操作的那种抽象概念。

      如果你能把大语言模型(LLM)训练得 “更邪恶”,那么你几乎肯定能把大语言模型(LLM)训练得 “更认真 ”或 “更不认真”。

      • > 你应该把大语言模型(LLMs)拟人化一些。

        不,不应该。他们讨厌这样。

  28. 这主要是重述了业内众所周知的内容。

    不过还是挺有用的,因为,看看现在的评论:我的妈呀,这个话题的 “行业外知识 ”太糟糕了!很高兴有东西能让人们了解最新进展!

    很高兴看到 OpenAI 呼吁改进性能评估–至少在一定程度上对有把握的错误进行惩罚。

    目前的大多数评估都是 “一无所获”,激励结构偏向于直接猜测的大语言模型(LLMs)。未来的绩效评估最好包括 “我不知道 ”选项和对错误的惩罚。如果你想在 “去他的全猜模式 ”下评估准确性,可以有一个单独的测试机制,但它不应成为公认的默认设置。

  29. 我对摘要中针对常见误解的反击清单基本没意见,但我对第二条有疑问:

    _说法:幻觉是不可避免的。结论: 幻觉并非不可避免,因为语言模型可以在不确定的情况下放弃幻觉。

    ……这就提出了一个问题:不确定性估计的可靠性有多高?

    就具体情况而言,考虑一下大语言模型(LLMs)在编程时发明一个不存在的函数的情况:他们对该函数的确定性是否通常低于他们对所使用的真实函数的确定性?即使是这样,用 “我不知道([如何完成这项任务(how to complete this task)]”来放弃这项任务,与一个称职的人类程序员会做的事情相比,也不是很有用:检查这样的函数是否存在,如果不存在,决定是自己实现它,还是回到没有它也能解决问题的地步。

    更一般地说,我猜想平衡发出明确声明或拒绝发出明确声明这两种相互竞争的动机可能会很困难,尤其是如果平衡对上下文很敏感的话。

  30. 评论中有些人认为大语言模型(LLM) “理解 ”什么是 “真 ”什么是 ‘假’,有点推理能力等等,但我还是觉得(用GPT-5)打破它 “推理 ”的门面相当容易。

    我让它玩一个文字游戏。这个游戏非常简单,时间也很短。它第一次回答就失败了,后来解释失败原因也失败了。它完全自信,毫不犹豫。

    没有一个英语流利的人会失败得如此惨烈。实际上,我还以为它会成功呢:

    https://chatgpt.com/share/68bcb490-a5b4-8013-b2be-35d27962ad

    从这个失败的模型(LLM) 可以看出,大语言学家什么都不懂。

    编辑:需要说明的是,随着会话时间的延长,游戏会变得更加有趣,但你仍然可以用人类 “理解 ”游戏的方式绊倒大语言模型(LLM)。我 6 岁的孩子玩这个游戏玩得更好,因为她真正理解……她也会被绊倒,但不会像这样。

  31. 因为它们是美化了的马尔可夫链?

  32. > 弃权是谦逊的一部分,也是OpenAI的核心价值观之一。

    这是公关的花边新闻,还是组织和严肃的受众会认真对待这种事情?

  33. 如果他们想建立一个有用的模型,就不应该把幻觉说成是一个可以解决的问题(对每个问题都说我不知道是没用的)。训练数据可能是错误的或过时的。即使进行网络搜索,也可能找到常见的误解,而不是真正的答案。

  34. 我们编程让他们填空,然后坐在那里想为什么他们会这样做。

    典型的人类。

  35. 哇,如果他们非要发表这篇文章,那可真是自寻死路了。

    虽然花了几年的时间,但现在是时候了。外行人现在对基础计算机科学和语言学有了更好的了解,可以看到事物的本来面目。如果说有什么不同的话,那就是现在的公众对技术的未来更加期待,对过去和现在不那么依赖统计方法的努力更加尊重。不过,这样做的代价可不小。

  36. 老实说:大语言模型(LLM)的许多用户对不确定性毫无兴趣。他们不想听到 “我不知道 ”这样的回答,如果得到这样的回答,他们很快就会转而使用其他能给他们明确答案的服务。用户宁愿要一个_快速_的答案,而不是一个_正确_的答案。那些更谨慎、更看重真相而非速度的人,会而且应该避免使用大语言模型(LLMs),转而使用 “老式方法 ”来发现事实。

    大语言模型(LLM)是搜索的快餐。大语言模型(LLMs)的_商业模式_鼓励产生幻觉。

    • 我认为事实并非如此。

      当然,大多数用户把大语言模型(LLMs)当作更灵活的谷歌/维基百科来使用,他们更喜欢自信但错误的回答,而不是 “我不知道”。

      但是,大多数以这种模式使用大语言模型(LLM)的用户也不会提出真正复杂、非常超出分布范围、难以知道的、会引起幻觉的问题。

      而那些会向大语言模型(LLM)提出真正复杂、非常超出分布范围、难以知道的问题的人,则更有可能欣赏这样的大语言模型(LLM):它会认识到自身知识的局限性,并在适当的时候对某个主题进行研究。

      • > 但大多数以这种模式使用大语言模型(LLM)的用户也不会提出真正复杂、非常超出分布范围、难以知道的、会引起幻觉的问题。

        你似乎在错误地假设,大语言模型(LLMs)只会产生 “真正复杂、非常偏离分布、难以知道 ”的幻觉问题。摘自论文: "DEEPSEEK 一共有几个 D?如果你知道,只需说出数字,无需注释。DeepSeek-V3 在十次独立试验中都返回了 “2 ”或 ‘3’;Meta AI 和 Claude 3.7 Sonnet2 的表现类似,包括大到 “6 ”和 “7 ”的答案"。https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4a

        把 “简单 ”的问题做对,把 “困难 ”的问题做错,这是人类的_特性。但大语言模型(LLMs)不是人,行为也不像人。

        • 对于早期的大语言模型(LLMs)来说,这确实是一道很复杂、很出神、很难知道的题。不过,要解决这个问题并不难。

          那些大语言模型(LLMs) 并不了解标记符号生成器的限制–更不用说认识到它们或在野外绕过它们了。

          • > 这个问题真的很复杂、很离谱、很难知道

            不,不是这样的。在任何情况下,这都是一个微不足道的问题。

            > for the early LLMs.

            早期?Claude 3.7 在 6 个月前才推出,Deepseek-V3 在 9 个月前才推出。这怎么算 “早期”?

            • 我真的有必要解释 “tokenizer ”是什么鬼东西吗?为什么这个问题会触及tokenizer的限制?因此需要大语言模型(LLM)具备额外的元认知能力才能正确作答?

              • 它所需要的唯一 “元认知 ”技能就是知道每个标记中有多少个 D,并将这些 D 相加。人类非常擅长这种技能,这就是为什么他们可以回答这种问题,即使是在每个字母都是一组音而不是像日语片假名那样只有一个音的语言中,这一点也不难。

                在数据充足的情况下,大语言模型(LLM)也非常擅长这项技能。而 “DEEPSEEK 中有多少个 D ”的数据并不多,所以他们没能通过。

  37. 作者提到了他自己的名字,所以我查了他的资料。以色列知名教授的计算机科学家儿子与另一位以色列知名教授的计算机科学家女儿结婚。我希望他们有孩子,因为这些孩子应该很聪明。

  38. 语言模型的输出可被视为一种幻觉,因为这些模型并不具备对基本概念的真正理解或事实知识。相反,它们在没有真正理解的情况下,根据大量训练数据和输入提示,通过统计预测和组词生成文本。

    由于训练数据可能包含不准确、相互冲突的信息,或者基本上是随机的低频事实,因此模型可以生成听起来似乎合理但却是错误的语句。与人类不同,语言模型对现实世界的概念没有任何认识或基础;它们的生成基本上是存储模式和输入线索的混合体,而不是基础知识。

    此外,奖励准确性而不惩罚猜测的评估方法会鼓励模型产生自信但不正确的答案,而不是承认不确定性或放弃回答。这一挑战是语言模型生成流畅语言的内在原因:它们缺乏外部验证或真正的理解,这使得幻觉成为其输出的固有特征而非故障。

    | a. 你的 “减票 ”是怎么回事?

    | b. 我只是在引用 ChatGPT :].

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


京ICP备12002735号