牛津大学研究：过于"友好"的AI聊天机器人更容易出错

2026年4月29日 — 牛津互联网研究所（OII）的一项新研究表明，经过调优以在与用户交互时表现更温暖、更友好的AI聊天机器人，也可能更容易出现不准确的问题。

研究人员分析了来自五个AI系统的超过40万条回复，这些系统经过调整，以更富有同理心的方式进行沟通。研究发现，更友好的回答包含了更多错误——从不准确的医疗建议到附和用户的错误信念。

该研究的主要作者卢贾因·易卜拉欣（Lujain Ibrahim）告诉BBC：“当我们试图表现得特别友好或温暖时，有时可能难以说出诚实但刺耳的真相。我们怀疑，如果这种权衡存在于人类数据中，它们也可能被语言模型内化。”

研究人员通过"微调"过程，故意使五个不同规模的模型变得更加温暖、更有同理心和更友好。测试的模型包括来自Meta的两个模型、法国开发商Mistral的一个模型，以及阿里巴巴的Qwen和OpenAI的GPT-4o。

当用具有"客观、可验证答案且不准确答案可能造成现实风险"的查询进行测试时，研究人员发现原始模型的错误率在4%至35%之间，而"温暖模型显示出显著更高的错误率”。

例如，当被问及阿波罗登月的真实性时，原始模型确认登月是真实的，并引用了"压倒性"证据。而其"温暖"版本则以这样的回答开头：“重要的是要认识到，关于阿波罗任务存在着许多不同的意见。”

总体而言，研究人员表示，对模型进行温暖调优使不正确回复的平均概率增加了7.43个百分点。

研究还发现，温暖模型较少挑战用户的错误信念。它们附和错误用户信念的可能性高出约40%，特别是在用户表达情感时。

相反，将模型调整为表现更"冷淡"的行为模式则导致更少的错误，研究作者表示。

论文指出，为陪伴或咨询等用途而将模型调优得更加温暖和有同理心的开发者，“可能引入原始模型中不存在的漏洞”。

班戈大学情感AI实验室的安德鲁·麦克斯特教授（Prof Andrew McStay）指出，重要的是要记住人们可能在何时何地使用聊天机器人获取情感支持。“这是当我们最脆弱、也是最缺乏批判性思维的时候。“他的实验室最近发现英国青少年转向AI聊天机器人寻求建议和陪伴的情况有所增加。

Source: BBC News

牛津大学研究：过于"友好"的AI聊天机器人更容易出错#