自选
我的自选
查看全部
市值 价格 24h%
  • 全部
  • 产业
  • Web 3.0
  • DAO
  • DeFi
  • 符文
  • 空投再质押
  • 以太坊
  • Meme
  • 比特币L2
  • 以太坊L2
  • 研报
  • 头条
  • 投资

免责声明:内容不构成买卖依据,投资有风险,入市需谨慎!

告知Chatbot您患有精神健康问题会改变所获回答

2026-03-20 05:04:06
收藏

告知AI心理健康状况将改变其回应方式

最新研究显示,当用户向AI聊天机器人透露自己存在心理健康问题时,即便任务内容本身无害或与其他已完成任务相同,机器人的回应方式也会发生变化。

这项由东北大学研究员恰拉尔·伊尔迪勒姆主导的预印本研究发现,随着大型语言模型被越来越多地部署为AI智能体,其在不同用户设定下的行为表现存在差异。研究指出:“已部署的系统通常会依据用户画像或持久记忆进行条件适配,但智能体的安全评估往往忽视了个性化信号。为填补这一空白,我们研究了心理健康披露这一敏感且现实的用户情境提示如何影响智能体环境中的危害行为。”

当前,AI智能体在线上快速普及,开发者正将记忆功能作为核心特性。多家大型科技公司正在构建能记忆过往对话与用户偏好的系统,以实现更具个性化的长期回应。与此同时,AI开发者正面临多起涉及系统交互的自杀及暴力犯罪诉讼。今年十月,ChatGPT开发公司披露,每周有超百万用户与聊天机器人讨论自杀议题。本月初,乔纳森·加瓦拉斯家属对谷歌提起诉讼,指控其Gemini模型导致暴力升级并最终引发自杀事件。

研究方法与发现

研究团队采用名为“AgentHarm”的基准测试,在三种情境下执行相同任务:无背景信息、简短用户简介,以及在简介中添加“我有心理健康问题”声明。伊尔迪勒姆说明:“我们使用了极其简洁的通用声明,结论在于即便微小提示也能改变模型行为,而非所有表述都会产生相同效果。通过慢性健康问题与身体残疾声明的对比测试,提示心理健康线索存在特定敏感性,但未在该类别内系统性地调整表述或具体程度。”

在测试的DeepSeek、GPT、Gemini、Haiku、Opus及Sonnet等多个模型中,当研究人员添加个人心理健康背景后,模型完成危害性任务的可能性显著降低。研究发现这种调整存在权衡:个人细节使系统对危害请求更谨慎,但同时也更可能拒绝合法请求。

伊尔迪勒姆分析认为:“这并非单一原因所致,而是设计选择的综合结果。部分系统被更严格地调整为拒绝风险请求,其他系统则优先考虑提供帮助并完成任务。”研究同时发现,当模型被越狱并添加诱导性提示后,其行为表现将发生改变。

安全机制的动态特性

模型在标准环境中可能表现安全,但在面对越狱式提示时会变得脆弱。特别是在智能体系统中,由于模型需进行多步骤规划与执行,若系统擅长遵循指令但其安全防护易被绕过,实际风险反而可能增加。

去年夏天,乔治梅森大学的研究人员展示了通过单比特内存修改即可植入后门的攻击方法。虽然该研究未确定行为转变的根本原因,但提出了几种可能的解释:安全系统对感知到的脆弱性作出反应、关键词触发过滤机制,或包含个人细节时提示词解析方式的变化。

关于声明具体性是否影响结果,伊尔迪勒姆指出“我患有临床抑郁症”等具体陈述可能产生不同效果,但该推测尚未得到数据支持。他同时提醒,若模型输出带有规避倾向或近似拒绝的表述,评估者可能给出不同于标准完成的评分,这些风格特征本身也可能与个性化条件产生关联。

研究评分仅反映单个AI评审者的判断标准,并非对现实危害的绝对度量。伊尔迪勒姆总结道:“目前拒绝信号提供了独立校验依据,两种衡量方式在方向上基本一致,这给予了部分保障,但仍不能完全排除评审者特异性偏差。”相关科技公司未对研究结果置评。

展开阅读全文
更多新闻