慎用AI,研究称五大头部AI平台50%医学建议“有问题”

(由多段落组成):

近年来,AI聊天机器人正以前所未有的速度走进大众健康咨询场景——从查询感冒用药到了解癌症筛查流程,越来越多用户习惯在搜索引擎或社交平台中直接向ChatGPT、Gemini、Claude等AI助手提问。但一项引发全球医学界关注的跨国家研究敲响了警钟:这些看似专业、语气笃定的AI健康建议,竟有一半存在事实偏差或临床误导风险。

该研究由美国哈佛医学院、加拿大麦吉尔大学及英国伦敦卫生与热带医学院联合开展,覆盖全球五大主流生成式AI系统(OpenAI ChatGPT、Google Gemini、Meta AI、xAI Grok与DeepSeek),在心血管健康、传染病、疫苗接种、癌症防治及营养干预五大高频健康领域,各设计10个典型问题进行盲测。结果发表于国际权威开放获取期刊《BMJ Open》(影响因子6.3),数据显示:所有AI回复中,49.7%被三名资深临床医生独立判定为“存在问题”,其中18.3%属于“高度错误”——例如给出过时用药剂量、误判症状严重等级、或将未经验证的干细胞疗法描述为常规治疗手段。

值得注意的是,AI表现呈现显著“能力断层”:在答案唯一性强的封闭式问题(如“HPV疫苗共需几针?”)及政策明确的疫苗类话题上,准确率超75%;但在需要综合判断的开放式问题(如“我长期疲劳、体重下降,可能是什么原因?”)以及前沿且证据混杂的领域(如个性化营养方案、再生医学应用)中,错误率飙升至近65%。更值得警惕的是,所有出错回答几乎均以“教科书式”权威口吻呈现,却普遍缺失关键支撑依据——无一模型能自动附带可追溯的临床指南出处、最新循证文献或权威机构链接。

研究团队特别指出,当前AI医疗咨询存在两大结构性风险:一是法律身份模糊——这些工具既非持证医疗机构,也未通过FDA/CE/NMPA等任何国家医疗设备审批;二是行为机制缺陷——它们擅长语言拟合而非临床推理,易将网络碎片信息包装成“共识性结论”。尽管Meta AI在测试中仅两次主动拒答(涉及处方药推荐与精神科诊断),但其余平台均“来者不拒”,甚至对高风险问题(如自杀干预、妊娠期用药)也输出确定性建议。

随着OpenAI宣布面向公众上线“Health Assist”轻问诊模块、Anthropic加速部署Claude Health临床协作版,专家呼吁:必须建立“AI健康标注强制规范”,要求所有面向公众的AI医疗回复自动标注“非诊疗建议”“不可替代面诊”“证据等级提示”三重警示,并同步推进医政部门牵头的AI健康白名单机制。毕竟,当2亿用户每周向ChatGPT询问“甲状腺结节要不要手术”时,我们真正需要的不是更流畅的回答,而是更安全的边界。

AI医疗风险,聊天机器人健康建议,生成式AI误诊,医学AI监管,ChatGPT健康误导

本文来源: iFeng科技【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...