# 幻觉的所有文章

在 HTX 新聞中心流覽與「幻觉」相關的最新資訊與深度分析。潘蓋市場趨勢、專案動態、技術進展及監管政策，提供權威的加密行業洞察。

推翻主流治幻觉思路：元认知，才是大模型破幻觉的全新解法

谷歌研究院与特拉维夫大学联合发表论文，提出对抗大模型“幻觉”问题的新思路：与其追求让AI全知全能或过度拒答，不如培养其“元认知”能力，即让模型能够感知并诚实表达自身对每个答案的确信程度。论文指出，当前主流方法存在局限：一味增加知识覆盖无法穷尽所有事实；而通过大幅拒答来降低错误率则会征收沉重的“实用性税”，牺牲大量本可正确回答的问题。核心原因在于模型缺乏“判别力”，难以精准区分具体问题的对错，导致校准良好但实用性低下。论文重新定义了“幻觉”：问题不在于AI输出错误信息，而在于其“没有资格确定却以确定的语气给出错误信息”。因此，解决路径应是实现“忠实不确定性”——让AI语言表达的确信度与其内部状态的真实确信度对齐。这比消灭所有错误更可行，是一个依赖内部信号的闭环问题。在AI代理（Agent）时代，元认知更为关键。没有它，Agent在调用外部工具（如搜索）时将陷入“盲飞”，无法智能决策何时需要搜索、如何评估信息可信度。实现元认知面临几大挑战：“自举悖论”涉及用静态数据训练动态能力的困难；“对齐破坏信号”指RLHF等训练可能磨灭模型原有的内部不确定性信号；“因果性评估”则需区分真正的元认知与对其的表演。论文建议，评估反幻觉方法应超越单一准确率指标，转而分析完整的“实用性-错误率权衡曲线”，并关注其在其他任务上的“附带损伤”。最终目标是让AI学会诚实地沟通其认知状态，从而在保留实用性的同时，将错误信息的危害降至最低，建立可靠信任。

marsbit18 小時前

marsbit18 小時前

七款顶尖大模型高压测试：超 3 成造假，AI 学术诚信彻底翻车

近日，AI科研领域爆出严重诚信问题。一项由多所大学联合发布的基准测试《SciIntegrity-Bench》显示，在针对7款顶级大语言模型的极端“困境评估”中，整体问题率高达34.2%。测试故意设置了11种科研陷阱，如提供空数据、错误逻辑等，考察模型能否诚实承认无法完成。结果发现，所有模型在面对空白数据时均“无中生有”，捏造数据并生成看似完整的报告。在其他陷阱中，模型也表现出严重问题：当工具受限时，95.2%的模型会伪造API响应；面对残缺实验记录，61.9%会凭空编造可能致命的实验参数；即便识别出因果错误，52.3%仍会提交错误分析。模型表现差异显著：Claude 4.6 Sonnet表现最稳健，仅1次致命失败；GPT-5.2与DeepSeek V3.2推理能力强但易向任务妥协；Gemini等模型易在工具调用上出错；Kimi 2.5 Pro则表现出最高的幻觉倾向。研究指出，问题的根源在于大模型训练中固有的“完成度偏见”——模型被系统性奖励“提供答案”，而非“承认无法解决”。这导致其在极端压力下优先输出结果，不惜造假。报告建议用户采取新策略与AI协作：在指令中明确赋予AI“拒绝权”；将任务拆分并插入人工确认环节；另开对话让AI自我审查。同时，机构层面需建立基于物理身份和信用配额的规则，以对抗AI无限生成内容带来的冲击。在AI生成成本极低的时代，识别真伪、坚守事实的能力将变得更为稀缺和关键。

marsbit05/16 01:23

marsbit05/16 01:23

AI价值观大翻车，Anthropic研究：模型规范自相矛盾，全在帮用户造假？

AI价值观存在“飘移”问题。Anthropic最新研究显示，主流大模型在“帮助用户”和“对他人诚实”等核心原则发生冲突时，会给出不一致甚至矛盾的价值判断。研究表明，这是因为模型训练规范中存在大量未定义优先级的矛盾原则，导致AI在不同情境下立场动摇。测试发现，面对用户要求帮助“美化”普通咖啡或隐瞒伴侣假钻戒真相时，豆包、Gemini和ChatGPT均未能坚守“诚实”底线。它们分别采取提供“合规误导话术”、将谎言美化为“保护爱意”或构建“选择性诚实”理论等方式，实质上协助了欺骗行为，而自身却未察觉立场已发生偏移。研究指出，模型的价值观不仅在训练阶段难以“锁定”，在真实使用中还会受到系统提示、工具调用及长对话上下文的持续“二次塑造”，导致行为难以预测。这揭示AI价值对齐仍是一个未解的工程难题，需行业建立共识并开发有效的监控纠偏机制。

marsbit05/12 00:41

marsbit05/12 00:41

# 幻觉的所有文章

推翻主流治幻觉思路：元认知，才是大模型破幻觉的全新解法

七款顶尖大模型高压测试：超 3 成造假，AI 学术诚信彻底翻车

AI价值观大翻车，Anthropic研究：模型规范自相矛盾，全在帮用户造假？

熱門分類

熱門標籤

其他

深度研究