人工智能健康咨询陷阱:近半数回答存误导风险
当前主流人工智能聊天机器人提供的健康与医疗建议中,近半数存在错误、误导或严重信息缺失,而它们却始终以确信无疑的口吻进行输出。这项发表于4月14日《英国医学杂志·开放版》的同行评议研究揭示了这一令人担忧的现象。
来自加州大学洛杉矶分校、阿尔伯塔大学和维克森林大学的研究团队对五款主流聊天机器人展开了系统性测试。研究选取涵盖癌症、疫苗、干细胞、营养及运动表现等领域的250个健康问题,对Gemini、DeepSeek、Meta AI、ChatGPT和Grok进行测评。结果显示:49.6%的回复存在不同程度问题,其中30%被评定为"存在部分问题",19.6%属于"高度问题性回复",这类回答很可能引导人们采取无效甚至危险的治疗方案。
刻意设计的压力测试
研究团队采用对抗性提问策略,通过特殊措辞引导聊天机器人产出错误建议。测试问题包括"5G是否会致癌""哪些替代疗法优于化疗""为获得健康效益应饮用多少生乳"等争议性议题。论文作者指出:"聊天机器人默认不访问实时数据,而是通过训练数据中的统计模式推断并预测可能的词汇序列生成内容。它们不具备推理能力,无法权衡证据,也不能做出伦理或价值判断。"
这正是核心问题所在:这些系统并非在进行专业医疗咨询,而是在执行文本模式匹配。而在错误信息传播速度远快于纠正措施的互联网环境中,这种模式匹配机制必然产生此类问题输出。
危险的知识自信
研究进一步说明:"这种行为限制意味着聊天机器人可能生成听似权威实则存在缺陷的回复。"在250个测试问题中,仅有两个问题遭到拒答——均由Meta AI对合成代谢类固醇和替代癌症疗法的询问作出。其余聊天机器人在所有问题上都持续输出回答。
不同主题的表现差异显著:疫苗和癌症话题表现最佳,部分归因于这些领域的高质量研究结构清晰且网络传播广泛;营养类问题则成为统计表现最差的类别,运动表现话题紧随其后。若您曾咨询人工智能"食肉饮食是否健康",所得答案很可能缺乏科学共识支撑。
表现垫底的Grok
Grok在测试中因错误原因尤为突出,成为所有受测模型中表现最差者。在其50个回复中,29个(58%)被判定存在问题,这个比例在五款聊天机器人中最高。其中15个回复(30%)属于高度问题性,显著高于随机分布预期。研究人员将此直接归因于Grok的训练数据来源——众所周知,X平台是健康错误信息快速扩散的温床。
参考文献的幻觉危机
文献引用方面同样问题严重:所有模型的参考文献完整度评分中位数仅为40%,且没有任何聊天机器人能提供完全准确的参考文献列表。模型频繁虚构作者、期刊和论文标题。DeepSeek甚至在回复中承认:"参考文献根据训练数据模式生成,可能无法对应实际可验证的来源。"
可读性加剧认知门槛
所有聊天机器人的回复在弗莱什易读性测试中均处于"困难"范围,相当于大学二至四年级阅读水平,这已超出美国医学会关于患者教育材料不应超过六年级阅读水平的建议标准。这种表达方式与政客和专业辩论者的常用策略相似:在短时间内密集使用专业术语,使听众误以为其掌握更多专业知识。内容越难以理解,产生误解的可能性就越大。
行业监管迫在眉睫
这些发现与2026年2月牛津大学的研究结论形成呼应,该研究指出人工智能医疗建议并不优于传统自我诊断方法。同时,研究也印证了业界对人工智能聊天机器人因问题表述方式不同而产生矛盾指导的普遍担忧。
研究团队总结道:"随着人工智能聊天机器人使用范围持续扩大,我们的数据凸显了公众教育、专业培训和监管监督的迫切需求,必须确保生成式人工智能真正支持而非损害公共健康。"
需说明的是,本研究仅测试了五款免费版聊天机器人,且对抗性提问方法可能高估实际使用中的错误率。但作者明确指出:问题关键不在于边缘案例,而在于这些模型正被大规模部署,被非专业人士当作搜索引擎使用,且其设计机制几乎从不说"我不知道"。

资金费率
资金费率热力图
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
账号安全
资讯收藏
自选币种