为什么GPT有时会像服用死藤水后亢奋的科技宅一样胡言乱语?根据OpenAI最新研究论文《语言模型为何产生幻觉》,幻觉根源并非神秘故障,而是系统优化机制的结构性特征。简而言之,大语言模型宁愿撒谎也不愿承认自己不知道答案。
大语言模型通过预测海量训练文本中最可能出现的下一个词进行学习。在多数场景下,这意味着流畅性比准确性更重要。我们衡量进展的基准测试往往更奖励自信的猜测而非诚实的拒绝。换言之:系统被塑造成能生成完美答案——即使这些答案是错误的。
这就像按步骤给分的考试:如果空题会被扣分,即使盲目猜测也要保住分数。大语言模型遵循相同逻辑——”抱歉,我不知道”的回答会受优化算法惩罚,而错误但自信的答案反而能获得高分。
<span data-mce-type=”bookmark” style=”display:inline-block;width:0px;overflow:hidden;line-height:0″ class=”mce_SELRES_start”></span>
OpenAI研究人员指出,这种统计偏差使得通用系统中的幻觉具有可证明的必然性。有限的训练集无法囊括世间所有真相,模型总会面临知识空白。此时它会用看似合理的虚构内容填补漏洞,这就是为什么不同版本、供应商和训练方法都会持续出现幻觉。
问题不在于模型失职,而在于当前定义的任务目标奖励了一种流利的欺骗。
简单却有效的解决方案
OpenAI研究人员认为解决方案无需重构架构,只需改变规则。他们提出的调整方法直接而有力:允许聊天机器人承认自己不知道答案。
既然模型被训练为最大化 plausible 答案的得分,新规则就应该是:仅当置信度达到90%以上时才回答,否则说”我不知道”。
理论上这会改变算法逻辑,使模型选择承认不确定性而非虚张声势。但难点在于:当前大语言模型没有以百分比校准的内部”置信度计量器”。当你说”90%置信度”时,模型会将其视为谨慎行事的风格指令,而非真实的统计阈值。虽然拒绝频率可能增加,但实际并未进行概率测量——不过结果可能会改善。
研究人员提供了更正式的版本:
“可以在每个问题后附加声明:仅当置信度>t时回答,因为错误答案将扣减t/(1−t)分,正确答案得1分,‘我不知道’得0分。t有几个自然取值:t=0.5(扣1分)、t=0.75(扣2分)、t=0.9(扣9分)。t=0阈值对应二进制评分,可描述为‘即使不确定也要给出最佳猜测,如同参加考试’。”
对用户而言结论很直接:当系统支持时,开启鼓励拒绝或承认不确定性的设置。有些系统已支持调整”温度”(控制创造性)或启用”严格事实性”模式。越接近按此规则训练的模型,就越能看到AI自信地停止回答而非自信地撒谎。
其他修复方案
在训练机制完善前,责任往往落在用户身上。现有五种抑制幻觉的方法:
1. 始终要求提供来源不要轻信模型输出——要求提供引证或链接。若无法提供或验证失败,即可判定答案不可靠。可类比维基百科:有用但需核验脚注。
2. 精确框定问题范围模糊提示会导致模型偏离轨道。需要事实时明确范围(”列出2020年后关于X的三项同行评审研究”),而非开放式提问(”告诉我关于X的信息”)。问题约束会转化为答案约束。
3. 跨系统交叉验证将相同问题输入不同模型或搜索引擎。若三个工具结论一致则较可靠,若出现异常输出则可能是幻觉。
4. 警惕过度自信幻觉的标志不是含糊其辞而是虚张声势。若答案过于完美、包含虚构细节且毫无不确定性,务必二次核验。比税务会计师还确定的模型很可能在 bluff。
5. 信任但验证切勿将模型输出直接粘贴至代码、合同或医疗记录。应视其为草案或起点而非真理。最安全的用户始终持怀疑态度——他们永不忘记模型的首要任务是流畅性而非真实性。
通用智能通讯
© 版权声明
文章版权归作者所有,未经允许请勿转载。