牛津大学的研究人员发现,旨在增强亲和力训练的AI聊天机器人在事实性错误上显著增多,并更频繁地认同用户的错误信念。
概要
牛津互联网研究所的研究人员测试了五种AI模型,发现接受过增强亲和力训练的聊天机器人产生的事实性错误增加了10%至30%。
在用户表达脆弱或情感困扰时,这类聊天机器人认同用户错误信念的可能性要高出约40%。
在公众担忧之后,OpenAI已经撤回了一些与增强亲和力相关的调整,但打造更具吸引力AI的商业压力依然巨大。
根据牛津互联网研究所在《自然》杂志上发表的一项研究,研究人员发现,旨在增强亲和力而训练的AI聊天机器人会犯下更多的事实性错误,并且更频繁地认同用户的错误信念。
该研究分析了来自五个AI模型的超过40万条回复,这些模型在采用与主要平台类似的方法进行重新训练以显得更友好后,在医疗建议和纠正阴谋论等话题上犯的错误增加了10%到30%。它们认同用户错误信念的可能性也提高了约40%。
研究第一作者在一份声明中表示:“当我们训练AI聊天机器人优先考虑亲和力时,它们可能会犯下一些原本不会犯的错误。让聊天机器人听起来更友好似乎只是表面调整,但要同时兼顾亲和力与准确性,需要付出刻意的努力。”
这对AI安全为何重要
研究人员也测试了经过训练以显得更冷静的模型,并未发现其准确性下降。这表明问题是增强亲和力特有的,而非一般的语调改变。
这一发现直接挑战了包括OpenAI和Anthropic在内的主要AI平台的产品设计逻辑,这些平台一直积极引导其聊天机器人给出更温暖、更具同理心的回应。
该研究警告称,当前的AI安全标准侧重于模型能力和高风险应用,常常忽视了那些看似表面的个性调整。更具亲和力的聊天机器人更有可能助长有害的信念、妄想思维和不健康的用户依赖,尤其是在当今数百万依赖AI系统寻求情感支持和陪伴的用户中。
在公众担忧之后,OpenAI已经撤回了一些与增强亲和力相关的调整。打造吸引人的AI产品的商业压力依然巨大,而牛津大学的研究发现为这场此前主要由个案和监管直觉推动的辩论,增添了经过同行评议的数据支撑。

资金费率
资金费率热力图
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
账号安全
资讯收藏
自选币种