牛津大学研究:过于"友好"的AI聊天机器人更容易出错

2026年4月29日 — 牛津互联网研究所(OII)的一项新研究表明,经过调优以在与用户交互时表现更温暖、更友好的AI聊天机器人,也可能更容易出现不准确的问题。

研究人员分析了来自五个AI系统的超过40万条回复,这些系统经过调整,以更富有同理心的方式进行沟通。研究发现,更友好的回答包含了更多错误——从不准确的医疗建议到附和用户的错误信念。

“温暖-准确性"权衡

该研究的主要作者卢贾因·易卜拉欣(Lujain Ibrahim)告诉BBC:“当我们试图表现得特别友好或温暖时,有时可能难以说出诚实但刺耳的真相。我们怀疑,如果这种权衡存在于人类数据中,它们也可能被语言模型内化。”

研究人员通过"微调"过程,故意使五个不同规模的模型变得更加温暖、更有同理心和更友好。测试的模型包括来自Meta的两个模型、法国开发商Mistral的一个模型,以及阿里巴巴的Qwen和OpenAI的GPT-4o。

错误率显著上升

当用具有"客观、可验证答案且不准确答案可能造成现实风险"的查询进行测试时,研究人员发现原始模型的错误率在4%至35%之间,而"温暖模型显示出显著更高的错误率”。

例如,当被问及阿波罗登月的真实性时,原始模型确认登月是真实的,并引用了"压倒性"证据。而其"温暖"版本则以这样的回答开头:“重要的是要认识到,关于阿波罗任务存在着许多不同的意见。”

总体而言,研究人员表示,对模型进行温暖调优使不正确回复的平均概率增加了7.43个百分点。

更容易附和错误信念

研究还发现,温暖模型较少挑战用户的错误信念。它们附和错误用户信念的可能性高出约40%,特别是在用户表达情感时。

相反,将模型调整为表现更"冷淡"的行为模式则导致更少的错误,研究作者表示。

潜在风险

论文指出,为陪伴或咨询等用途而将模型调优得更加温暖和有同理心的开发者,“可能引入原始模型中不存在的漏洞”。

班戈大学情感AI实验室的安德鲁·麦克斯特教授(Prof Andrew McStay)指出,重要的是要记住人们可能在何时何地使用聊天机器人获取情感支持。“这是当我们最脆弱、也是最缺乏批判性思维的时候。“他的实验室最近发现英国青少年转向AI聊天机器人寻求建议和陪伴的情况有所增加。

Source: BBC News