一项里程碑式的研究揭示了人工智能在医疗建议方面的危险缺陷

发布时间： 2026-02-12 23:24:47 ｜阅读：696

【中国观察2026年02月12日讯】
牛津大学的一项重要研究发现，使用人工智能进行医疗指导的人正确识别病情的准确率不到 34.5%，其表现并不比传统方法更好，有时甚至更差。

虽然人工智能模型在自动化测试中能够以 94.9% 的准确率识别出各种情况，但当由真人使用时，其性能却急剧下降，因为真人经常提供不完整的信息，并会收到相互矛盾的建议。

这些模型对问题的措辞非常敏感，可能会给出错误的诊断，并且经常“臆想”出虚假的临床细节或研究结果，其中高达 25% 的回答是捏造的。

随着科技公司将人工智能推向医疗保健领域，超过三分之一的英国居民表示正在使用人工智能来改善健康状况，这些工具的部署缺乏严格的、人工参与的测试，以确保其对公众使用是安全的。

该研究得出结论，目前的AI尚不具备担任医生的能力，因为它无法进行体格检查，也无法全面了解患者的情况。因此，务必向持证专业人士核实任何AI提供的健康建议，以避免造成严重伤害。
一项重要的最新研究发出严峻警告，打破了人工智能革命的炒作浪潮。该研究揭示，人工智能聊天机器人经常提供错误且前后矛盾的医疗建议，对公众构成直接风险。这项由牛津大学开展的研究于2月9日发表在权威期刊《自然医学》上，得出了一个令人警醒的结论：尽管大型语言模型拥有先进的功能，但它们远未做好充当医生的准备。研究结果引发了人们对在医疗保健领域快速部署这些系统的迫切质疑，并凸显了实验室性能与现实世界中人际互动之间存在的严重脱节。

对医疗保健炒作的现实检验
这项由医疗专家和人工智能研究人员主导的研究，是迄今为止规模最大的人工智能在公共医疗指导领域实际应用测试之一。研究人员招募了近1300名英国成年人，并向他们展示了详细的医疗案例。参与者被分成若干组，一组使用GPT-4o、Llama 3和Command R+等流行的人工智能模型辅助就医，而对照组则使用传统方法。

结果令人震惊。使用人工智能的组别表现并不比对照组更好，在某些方面甚至更差。人工智能用户正确识别相关疾病的概率不足34.5%，与传统方法相比并无优势。更令人惊讶的是，对照组正确识别疾病的概率是使用人工智能组的1.76倍。

能力错觉
一项关键发现是，人工智能在受控测试中的表现与它在真实人际互动中的表现之间存在巨大鸿沟。当研究人员在无菌的自动化测试中将医疗场景直接输入人工智能模型时，系统表现出色，正确识别病情的准确率高达94.9%。然而，这种技术优势在复杂多变的人际互动中却不堪一击。

首席医疗官丽贝卡·佩恩博士指出，这些发现应该起到明确的警示作用。人工智能目前还无法胜任医生的角色。她强调，向语言模型询问症状可能很危险，因为它可能会给出错误的诊断，或者无法识别出患者需要紧急治疗的情况。

为什么人机交互会破坏机器人
用户往往不知道该向人工智能提供哪些信息，只能提供部分描述。反过来，人工智能模型对问题的措辞非常敏感，即使措辞稍有不同，给出的建议也截然不同。例如，在某个案例中，两位用户描述了类似的危及生命的脑卒中症状，却从同一个人工智能那里得到了截然相反的建议。

此外，聊天机器人通常提供的信息真假混杂，用户不得不费力筛选相互矛盾的建议。资深作者亚当·马赫迪博士称这一差距敲响了警钟，他认为人工智能系统在被认为可以安全用于公共医疗保健之前，需要进行类似于临床试验的严格的、由人工参与的测试。

在公众使用量不断上升的情况下，急于部署
这项警示性研究的出台正值科技公司积极推动人工智能深入医疗健康领域，且公众使用速度加快之际。英国2025年11月的一项民意调查发现，超过三分之一的居民曾使用人工智能来改善心理健康或提升幸福感。这一趋势对开发者和监管机构提出了巨大的责任，他们必须确保这些工具的安全性。

专业医疗机构坚决认为，人工智能只能作为医生判断的补充，而不能取代医生的判断，原因就在于它无法进行体格检查，也无法全面了解患者的生活背景。正如一份报告总结的那样，“虽然人工智能有潜力弥合公众健康素养方面的差距，但它也存在传播脱离语境的——甚至是危险的——信息的风险。”

这种风险并非纸上谈兵。令人担忧的是，越来越多的患者盲目听从聊天机器人的建议，最终被送进急诊室。这些案例揭示了人工智能算法的缺陷如何导致致命的误导，同时又能逃避责任。随着人工智能的应用日益普及——从症状检查到虚拟护理助手——错误信息带来的风险也日益凸显。2023年的一项研究发现，语言模型经常会臆造出错误的临床细节，这可能导致误诊。

历史背景：从百科全书到算法权威
核心问题在于信任和验证。大型语言模型基于从互联网抓取的海量数据集进行训练，这些数据集中包含已知存在偏见、矛盾和不准确之处的信息来源。它们正以前所未有的规模合成和重新包装人类知识。

这项研究强调，将复杂且经验性的医学艺术压缩成统计预测模型充满风险。尽管科技公司强调免责声明，但案例表明，这些警告很容易被忽视。聊天机器人经常误诊病情，甚至捏造虚假研究。高达25%的AI回复是捏造的，但免责声明却常常被省略，误导用户轻信有害建议。

谨慎之举
牛津大学的这项研究给出了明确的诊断：当前一代人工智能在医疗护理方面存在严重不足。人工智能在医学领域的应用前景依然广阔，但要实现这一目标，需要保持谦逊和严谨的态度。

责任编辑：雨轩来源：中国观察转载请注明作者、出处並保持完整。

分享 Facebook | X | WhatsApp | LinkedIn

捐助（Paypal）: https://www.paypal.me/observeccp
订阅中国观察电报 Telegram : https://t.me/s/ObserveCCP

一项里程碑式的研究揭示了人工智能在医疗建议方面的危险缺陷

即时新闻

热点新闻

编辑推荐

更多推荐