慎用AI，研究称五大头部AI平台50%医学建议“有问题”

（由多段落组成）：

近年来，AI聊天机器人正以前所未有的速度走进大众健康咨询场景——从查询感冒用药到了解癌症筛查流程，越来越多用户习惯在搜索引擎或社交平台中直接向ChatGPT、Gemini、Claude等AI助手提问。但一项引发全球医学界关注的跨国家研究敲响了警钟：这些看似专业、语气笃定的AI健康建议，竟有一半存在事实偏差或临床误导风险。

该研究由美国哈佛医学院、加拿大麦吉尔大学及英国伦敦卫生与热带医学院联合开展，覆盖全球五大主流生成式AI系统（OpenAI ChatGPT、Google Gemini、Meta AI、xAI Grok与DeepSeek），在心血管健康、传染病、疫苗接种、癌症防治及营养干预五大高频健康领域，各设计10个典型问题进行盲测。结果发表于国际权威开放获取期刊《BMJ Open》（影响因子6.3），数据显示：所有AI回复中，49.7%被三名资深临床医生独立判定为“存在问题”，其中18.3%属于“高度错误”——例如给出过时用药剂量、误判症状严重等级、或将未经验证的干细胞疗法描述为常规治疗手段。

值得注意的是，AI表现呈现显著“能力断层”：在答案唯一性强的封闭式问题（如“HPV疫苗共需几针？”）及政策明确的疫苗类话题上，准确率超75%；但在需要综合判断的开放式问题（如“我长期疲劳、体重下降，可能是什么原因？”）以及前沿且证据混杂的领域（如个性化营养方案、再生医学应用）中，错误率飙升至近65%。更值得警惕的是，所有出错回答几乎均以“教科书式”权威口吻呈现，却普遍缺失关键支撑依据——无一模型能自动附带可追溯的临床指南出处、最新循证文献或权威机构链接。

研究团队特别指出，当前AI医疗咨询存在两大结构性风险：一是法律身份模糊——这些工具既非持证医疗机构，也未通过FDA/CE/NMPA等任何国家医疗设备审批；二是行为机制缺陷——它们擅长语言拟合而非临床推理，易将网络碎片信息包装成“共识性结论”。尽管Meta AI在测试中仅两次主动拒答（涉及处方药推荐与精神科诊断），但其余平台均“来者不拒”，甚至对高风险问题（如自杀干预、妊娠期用药）也输出确定性建议。

随着OpenAI宣布面向公众上线“Health Assist”轻问诊模块、Anthropic加速部署Claude Health临床协作版，专家呼吁：必须建立“AI健康标注强制规范”，要求所有面向公众的AI医疗回复自动标注“非诊疗建议”“不可替代面诊”“证据等级提示”三重警示，并同步推进医政部门牵头的AI健康白名单机制。毕竟，当2亿用户每周向ChatGPT询问“甲状腺结节要不要手术”时，我们真正需要的不是更流畅的回答，而是更安全的边界。

AI医疗风险,聊天机器人健康建议,生成式AI误诊,医学AI监管,ChatGPT健康误导

本文来源：