OpenAI强化对话安全机制以应对潜在风险
OpenAI于本周四宣布推出全新的安全功能,旨在帮助ChatGPT识别对话中逐步升级的风险迹象。此次更新通过分析持续对话中形成的上下文语境,而非孤立处理单条信息,显著提升了系统对自杀、自残及潜在暴力行为的预警能力。
动态语境理解成为关键
OpenAI在技术说明中指出,每日有海量用户通过ChatGPT探讨各类议题——从日常咨询到涉及个人困境的复杂对话。在数亿次交互中,部分对话确实涉及处于心理挣扎或情绪危机的使用者。为此,系统现采用临时性“安全摘要”机制,该功能以高度聚焦的方式记录先前对话中与安全相关的关键语境。
“在敏感对话中,语境的重要性不亚于单条信息本身。”技术团队强调,“某些看似普通或含义模糊的请求,若结合使用者早期表现出的痛苦迹象或潜在危害意图,可能承载着截然不同的意义。”
聚焦高危场景的安全干预
这些安全摘要仅作为短期记录应用于严重情境,其设计目的并非永久记忆用户信息或个性化对话内容,而是用于识别对话危险化趋势、避免提供有害信息、缓解危机态势,并为用户引导专业支持渠道。研发团队表示:“当前工作聚焦于自杀、自残及伤害他人等极端场景。通过与心理健康专家协作,我们更新了模型策略与训练方案,以提升系统识别对话过程中预警信号的能力,并运用语境信息生成更审慎的回应。”
技术发展伴随持续挑战
此次升级正值OpenAI面临多项法律审查之际,多个案件指控其对话系统未能妥善处理涉及暴力、情感脆弱及危险行为的对话。公司表示,帮助系统识别“随时间推移逐渐显现的风险”仍是持续性的技术挑战,当前研发重点虽集中于人身安全领域,但未来可能将类似安全机制延伸至生物安全、网络安全等其他高风险领域。
“这始终是我们的核心发展方向。”技术团队总结道,“随着模型能力与认知理解的持续进化,我们将不断完善安全保障体系。”

资金费率
资金费率热力图
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
账号安全
资讯收藏
自选币种