AI在医疗领域的真实表现

我们的创业公司正在向医疗方向转型，所以前几天去了斯坦福的AI医疗大会。很多演讲者是医生，他们讲了AI在各种临床场景中的应用，从诊断和影像到药物研发和床旁监测。确实有意思，也很impressive。我对AI在缩短临床试验周期和推动精准医疗方面的潜力尤其乐观。

但我自己也开始深入看文献，发现了一些反直觉的、我认为很关键的结果。这篇文章是我试图把全貌铺开来看：按照应用场景，哪些地方AI在交付成果，哪些地方证据比宣传更复杂，系统性的风险长什么样。我不是想唱衰。我只是觉得医疗领域的利害关系太大了，不允许我们不诚实地面对现实。

医疗AI在2025年是一个78亿美元的融资市场，平均单笔融资1.12亿美元，比2023年增长了211%。去年涌现了8家新独角兽，包括Abridge（53亿美元）、Hippocratic AI（35亿美元）和OpenEvidence（60亿美元）。70%的医疗机构在某种形式上使用AI。超过1,451个AI/ML医疗设备获得了FDA授权。部署规模是真实的。问题是这些部署到底在做什么。

AI正在交付明确成果的领域

药物研发与分子生物学

这是我最乐观的领域。生物技术行业现在都在用AlphaFold——190个国家超过300万研究者。AlphaFold 3预测蛋白质与DNA、RNA和药物分子的相互作用，比之前的分子对接方法提高了50-100%。Isomorphic Labs发布了一个药物设计引擎，准确率翻了一倍多，而且能识别之前被认为”不可成药”的蛋白质结合位点，为复杂癌症和神经退行性疾病打开了新靶点。

AI设计的药物正在到达患者手中。第一个完成2a期临床试验的AI发现的药物，Insilico Medicine的rentosertib（用于肺纤维化），在Nature Medicine上发表了阳性结果。Iambic设计的AI癌症药物在重度预处理患者中显示28%的应答率，从发现到首次人体给药不到两年。一款AI设计的帕金森病药物1月份获得了FDA批准进入人体试验。Insilico称早期发现阶段从行业平均的4.5年缩短到了12-18个月。

在大会上，微软研究院的Hoifung Poon做了关于用多模态数据构建”虚拟患者”的主题演讲。他团队发表在Cell上的GigaTIME论文为14,000名癌症患者生成了300,000张虚拟组织切片——用传统方法这需要几十年和数十亿美元。10x Genomics的Serge Saxonov讲了用3亿多个细胞构建虚拟细胞图谱的工作。

AI也在重塑基因编辑。OpenCRISPR-1是第一个成功编辑人类DNA的AI生成的CRISPR-Cas蛋白，脱靶效应更低。一个基于AlphaFold3设计的系统实现了32倍的编辑活性提升，并在小鼠中成功治疗了杜氏肌营养不良症。MIT正在按照蛋白质的运动方式而非仅仅按形状来设计蛋白质。

自驱动实验室——AI设计实验、机器人执行、系统自动迭代——已经在化学和材料科学中投入运行，正在扩展到生物学领域。还很早期，但把几年的实验室工作压缩到几周已经不再是理论。

医学影像

放射学中的AI是最成熟的临床成功案例。Aidoc的分诊系统在11种急性发现上达到97%灵敏度和98%特异性。Eyonis LCS在CT肺癌筛查中达到93.3%灵敏度和99.9%阴性预测值。这些工具能发现放射科医生遗漏的发现，而且输出可以对照病理验证——有明确的ground truth。

临床试验

试验入组是一个巨大的瓶颈，AI正在产生影响。发表在Nature Communications上的TrialMatchAI以90%以上的准确率匹配患者和试验。一个多模态系统将患者审查时间减少了80%。一个1.5年只入组了1名患者的研究中心切换到AI匹配后，4个月入组了6名。

医疗导航

这是目前医疗VC最热门的类别之一。核心理念：AI帮助患者弄清楚该去哪里、什么在保险范围内、如何获得正确的医疗服务。Transcarent以22亿美元估值融了1.26亿美元。Hippocratic AI以35亿美元估值融了1.26亿美元，已经在50多个医疗系统中完成了1.15亿次患者交互。Sage Care以2000万美元从隐身模式出来。Accolade、Included Health、Sword Health都在构建AI导航层。

临床效果令人鼓舞。Montefiore Einstein的AI导航MyEleanor在服务不足的人群中将结肠镜检查完成率提高了近一倍（从10%到19%）。在葡萄牙，一个AI医疗导航在评估后改变了59%患者的实际行为，获得正确层级医疗服务的比例从30%升至64%。

机器人手术

2024年推出的达芬奇5使用在10万多张手术图像上训练的计算机视觉来实时识别关键解剖结构，在外科医生接近高风险区域前发出警告。力反馈系统减少了30%的不必要组织压力。早期前列腺切除术对比显示手术时间更短。

罕见病诊断

目前50-80%的罕见病患者在全基因组测序后仍未确诊，诊断过程平均超过5年。发表在Nature上的DeepRare使用多智能体AI处理基因数据和临床描述。RareCollab通过结合基因组和转录组数据达到77%的top-5诊断准确率，比传统方法提高了20%。

医院运营

不那么光鲜，但有些是最直接挽救生命的成果。洛桑大学医院的AI脓毒症检测系统降低了院内和90天死亡率。一个预测脓毒症恶化轨迹的模型提供了中位17.6小时的预警，ICU住院时间减少1.8天，28天死亡率降低5.7%。AI远程监测从85,000份心电图中发现了3,400例未确诊的心脏病。

精准用药

早期但很有意思。npj Precision Oncology上的CURATE.AI为每位患者创建N-of-1档案来动态个性化化疗剂量。Diadia Health于2026年3月推出了针对慢性病的AI因果推理平台，声称治疗选择的试错减少了60%。强化学习正被应用于儿科实时剂量优化。都还是早期阶段，但方向是把每个患者当作独特的生物系统来对待，而不是遵循人群平均值。

老年护理

全球65岁以上人口预计将从目前的7.27亿增长到2050年的超过15亿。AI正在应用于跌倒检测（计算机视觉、深度传感器、环境压力传感器）、通过可穿戴数字生物标志物进行远程监测、药物管理和早期痴呆信号的认知评估。2026年最有效的系统是窄领域且面向实际运营的——它们给人类护理者提供更早的可见性来发现活动能力变化或用药不依从，而不是试图替代护理关系。AI远程监测已经从85,000份心电图中发现了3,400例未确诊的心脏病，这些病例如果不是AI介入就会到心脏事件发生才被发现。

疫情监测

新冠之后，这个领域投入很大。ARIES是一个多智能体框架，自主查询WHO、CDC和学术期刊来近实时识别新兴威胁。AI系统正在整合流行病学数据、网络数据、气候数据和污水监测数据来实现更早的疫情检测。数据质量和低资源地区的采用仍然是主要障碍。

证据更复杂的领域

以上应用场景有共同特征：结构化数据、可验证的输出、明确的ground truth。影像有扫描结果可以对照病理。药物研发有可以在实验室验证的分子模拟。脓毒症预测有可以测量的患者结局。

当AI进入更混乱的领域时，模式发生了变化：开放式的临床推理、自由文本文档、信息模糊的实时决策。

诊断决策支持

AI在医学知识方面确实很强。GPT-4在USMLE题目上得分超过80%。谷歌的Med-PaLM 2达到86.5%。DeepSeek最近达到了92.6%。所以自然的假设是：给医生AI工具，诊断准确率应该会提高。

并没有。

JAMA Network Open上的一个2024年随机临床试验直接测试了这一点。50名医生，主要是内科，也有部分急诊和家庭医学，给他们基于真实患者的临床病例。每个病例包括病史、体格检查和实验室结果，涵盖广泛的病理类型。医生需要完成完整的诊断过程：鉴别诊断、支持和反对的证据、最终诊断、下一步检查。一半人可以使用LLM加上常规资源，一半人只有常规资源。LLM组的诊断推理得分76%，对照组74%。统计不显著（P = .60）。

LLM单独使用比常规资源组高出16个百分点（P = .03）。AI本身是有能力的，但给了医生之后并没有让他们变得更好。

npj Digital Medicine上的一个2026年荟萃分析分析了10项研究，发现了相同的模式。诊断准确率没有显著提高，没有时间节省，事实错误率保持在26-36%。

一项52项临床研究的分析测试了人-AI团队是否实现了”1 + 1 > 2”。在87个实验条件中，没有一个达到理论上的理想状态。初级医生获得了一些好处，高级医生几乎没有。你最希望用来检查AI输出的那些医生，恰恰是从工具中获益最少的人。

环境临床文档记录

环境AI转录可能是目前医疗领域最成功的商业AI应用。市场在2025年达到6亿美元，同比增长2.4倍。到2025年中，63%的Epic医院采用了环境文档记录，这是医疗IT历史上最快的采用曲线之一。Nuance DAX Copilot、Abridge和Ambience等产品听取就诊对话并生成病历。三分之二的医生报告每天节省1-4+小时。倦怠指标改善。医生喜欢它。Abridge和Ambience Healthcare在2025年合计融资7.93亿美元。

但当研究人员看了这些病历实际发生了什么，情况变得更复杂了。

一项2026年对23,760份AI生成病历的研究发现，84.4%的病历在签署前被医生编辑。这些不是格式修改，而是临床内容修改：操作和检查医嘱（39.9%）、症状（30.3%）、药物（27.3%）、诊断（25.9%）。评估与计划部分——记录临床推理并驱动计费的部分——占了59%的修改量。

一项验证研究发现31%的AI生成病历存在幻觉，而医生撰写的病历为20%。这里的幻觉指的是捏造的临床细节——就诊中没有发生的事情，却出现在了病历中。

30名临床医生被访谈了他们为什么要编辑。常见原因：转录错误、AI把患者的话归给了医生、没有证据支持的过度自信的诊断陈述、遗漏细节。每一个都需要医学判断才能发现。

NEJM AI的一篇观点文章直白地说：“校对自己既没有写也没有口述的内容是很难做好的。“整个安全论证建立在一个假设上：每个医生都会对每份输出、每次、每个患者进行彻底审查。这是一个关于持续警觉性的假设，在我们研究过的任何其他行业中都站不住脚。

有真实的时间节省。一项纵向研究发现150天内病历书写时间减少了7-15%，工作时间外的文档工作减少了18%。这对疲惫的医生来说很重要。但比宣传的要小，因为写作节省的时间部分被阅读、验证和修改消耗了。

医疗编码与收入循环

我最近还参加了一个收入循环管理的会议，人们在讨论用AI做医疗编码和语音AI。RCM领域的AI支出从2023年的32亿美元增长到2026年的85亿美元。但只有15-18%的医疗机构部署了生产级系统。

准确率数据解释了采用缓慢的原因。MedCode基准测试发现最好的AI模型（Gemini 3.1 Pro Preview）在ICD-10-CM编码任务上只达到55%的准确率。一项2026年分析发现LLM在HCC编码上约有70%的提供方拒绝率。错误的账单编码不仅仅是效率问题——它们影响报销、合规审计和引用患者编码历史的下游临床决策。

与此同时，支付方（保险公司）的动作快得多。84%的保险公司现在使用AI来大规模标记、路由和拒绝理赔。使用AI的Medicare Advantage保险公司将老年患者的拒绝率翻了一倍。约75%的拒绝在上诉后被推翻，但不到1%的患者会上诉。HHS监察长办公室发现13%的MA拒绝是针对实际符合覆盖规则的服务。

这就形成了一个不对称：保险公司大规模自动化拒绝，而医疗方大部分还在手动应对。医生每周花14个小时在事先授权上。41%的医疗机构报告拒绝率超过10%，高于2022年的30%。事先授权延误了94%患者的治疗，超过80%的医生目睹过患者因为流程太慢或太困惑而放弃治疗。CMS于2026年1月启动了WISeR项目，在6个州对640万受益人试点AI事先授权审查。这会带来平衡还是只是增加另一个层级，还有待观察。

公平性与算法偏见

在斯坦福的大会上，Maya Yiadom（斯坦福急诊医学）和Michele Samorani（圣塔克拉拉大学）做了一个关于AI质量和公平性的演讲，我当时没有完全听懂。后来我回去读了他们的研究。

Yiadom的研究关注急诊室中AI辅助的心脏病筛查。她分析了近28万次急诊就诊，发现标准的基于年龄的筛查规则系统性地漏诊了较年轻的Black、Native American和Pacific Islander患者，这些人群发生急性冠脉综合征的年龄更早。她的AI模型多识别了11.1%的病例。但重要的细节是：当AI嵌入到医生的决策过程中而不是作为独立的第二意见时效果最好。

Samorani的研究关于预约排班。医院用机器学习预测哪些患者会爽约，然后把”高风险”患者排到较差的时间段。问题是：爽约概率与社会经济地位相关。他团队的研究发现Black患者等待时间比Non-Black患者长30%。算法在精确执行它被要求优化的目标——门诊吞吐量——同时放大了让这些患者不信任医疗系统的现有不平等。

2020年到2024年间，对医生和医院的信任从72%下降到40%。一个影响约2亿美国人的算法通过将医疗支出作为疾病严重程度的代理指标，系统性地低估了Black患者的病情严重程度。在没有充分公平性测试的情况下部署AI正在加剧一场本已严重的信任危机。

警报疲劳

临床决策支持（CDS）系统在AI检测到潜在问题时生成警报——药物相互作用、异常实验室值、剂量错误。理论上，这些警报在问题到达患者之前拦截。实践中，临床医生几乎条件反射式地忽略它们。

在急诊科，覆盖率达到92.9%。在门诊环境中，52.6%的药物相关警报被覆盖。原因很有启发性：在一项急诊研究中，只有7.3%的警报本身是临床适当的。系统产生了如此多的噪音，以至于医生学会了忽略所有警报。

这造成了一种特定的失败模式。当93%的警报无关紧要时，医生养成了点击跳过的习惯。当一个真正危险的警报出现时，它看起来和噪音一模一样。一项2010年Human Factors研究关于自动化自满性表明这是一个普遍原则：当自动化系统高度可靠时，人类检测到的剩余错误比例反而更低。

更深层的问题

有些问题横跨各个具体应用场景。

监管证据缺口

有一个数字让我停下来了：在1,451个FDA批准的AI医疗设备中，一项2025年JAMA研究发现只有6个设备（1.6%）引用了随机临床试验，只有3个设备（<1%）报告了实际的患者健康结局。将近一半（46.7%）的FDA决策摘要连研究设计都没有描述，超过一半（53.3%）省略了样本量。

这是因为97%的AI设备通过510(k)通道进入，只需要证明与现有设备”实质等效”，而不是进行新的临床试验。这是一个为增量硬件更新设计的流程，现在被用来批准做出临床决策的AI软件。FDA在2015年批准了6个AI设备，2025年是295个。批准的速度已经超过了证据的速度。

人口统计数据更令人担忧。同一研究发现只有3.6%的批准报告了研究对象的种族或民族。99.1%没有提供社会经济数据。81.6%没有报告年龄。所以我们不知道这些设备在它们正在被使用的人群中是否同样有效。

技能退化

The Lancet Gastroenterology & Hepatology上的一项多中心研究发现，使用AI辅助结肠镜检查的内镜医生在AI被移除后，腺瘤检出率下降了6.0个百分点（从28.4%降至22.4%，P = 0.0089）。常规AI暴露降低了他们的独立表现。漏检的腺瘤直接转化为结直肠癌风险的增加。

Artificial Intelligence Review上的一项综述引入了”第二奇点”这个概念——反复委托AI导致专业技能不可逆丧失的临界点。他们识别的脆弱领域：体格检查、鉴别诊断、临床判断和医患沟通。

Bainbridge在1983年就预测到了这一点。自动化日常工作，人类就会失去在自动化失败时所需技能的练习机会。航空业在法航447号航班于2009年坠毁、造成228人死亡之后——因为飞行员在自动驾驶断开时无法手动飞行——引入了强制性手动飞行时间。一篇npj Digital Medicine观点文章认为医学应该效仿：要求定期无AI辅助的实践和绩效基准测试。

数据污染

新加坡国立大学、哈佛、斯坦福、谷歌和梅奥诊所的团队分析了80多万个合成数据点，发现当AI生成的临床文本进入下一代AI的训练数据时，诊断可靠性不是逐渐下降——而是崩溃。四代之后：放射学报告词汇量下降98.9%，独特医学术语减少66%，罕见发现（气胸、胸腔积液）完全从AI输出中消失。

当存在危及生命的病理时，虚假安心（“无急性发现”）从13.3%飙升至40.3%。模型置信度始终很高。医师评估确认仅两代自训练后输出就在临床上毫无用处。

如果31%幻觉率的环境转录病历被存储在电子病历中，并用于训练下一轮AI，系统就在给自己喂受污染的数据。研究人员发现保持至少75%的真实数据可以保持多样性。单纯扩大合成数据量不仅没有阻止崩溃，反而加速了崩溃并加重了人口统计偏差。

AI直接伤害患者

路透社2026年2月的调查发现，强生的TruDi手术导航设备在加入AI之前只有7份不良事件报告，之后增加到100多份。至少10人受伤，包括因意外损伤动脉而中风的患者。两名患者提起了诉讼。研究人员发现60个FDA授权的AI设备关联了182次产品召回，43%在获批一年内发生。

其他记录在案的事件：一个脓毒症警报AI为透析患者触发了不当的静脉输液（被临床医生发现）。Kaiser Permanente的治疗师因一个AI心理健康筛查系统延误治疗而罢工。ChatGPT Health在独立评估中超过一半的严重病例中未能推荐急诊治疗。

一项实证分析识别了2012-2025年间295起与健康相关的AI事件，很可能是低估的。

我还在想的一些事

从斯坦福的大会出来，我是乐观的。现在也是。AI正在把药物研发的时间线从几年压缩到几个月。它在扫描上发现人眼会错过的癌症。它在帮患者匹配到他们自己永远找不到的临床试验。这些不是渐进式的改进。回头看，它们会是那种显而易见的变革。

但有几件事我一直想不通。

为什么一个医学考试得分92%的AI，放到和医生同一个房间里，却没有提高医生的诊断准确率？为什么医生要编辑84%的AI生成病历，而且似乎没有人在衡量这种编辑的认知成本？为什么我们已经批准了超过1,400个AI医疗设备，但经过随机临床试验检验的不到10个？为什么内镜医生在使用AI之后，自己找息肉的能力反而变差了，这对从第一天就和AI一起训练的下一代医生意味着什么？

我没有整齐的答案。我觉得做这些工具的人，大部分是真的想要改善医疗。同时，我也觉得在医学领域，我们部署的东西和我们严格测试过的东西之间的差距，比我看过的任何领域都大。这两件事同时是真的。

我一直提醒自己的是，这个领域的利害关系是不同的，而且不仅仅是因为患者比软件用户更脆弱。在软件领域，做产品的人、用产品的人、付钱的人的利益大致是对齐的。产品不好，用户离开，公司亏钱。反馈循环是直接的。

医疗不是这样的。做AI转录工具的初创公司需要增长指标来融下一轮。VC需要回报。医生想少写病历，信任这个工具，但未必完全理解它在做什么。患者不知道自己的病历是AI写的，不知道自己的保险拒绝是算法做的，不知道给自己做手术的导航系统没有经过临床试验就被批准了。保险公司的激励是更快地拒绝更多理赔，这和患者的利益直接对立。而监管方在用1990年代的设备审批框架来批准2026年的AI软件。

做决策的人、承担后果的人、付钱的人、监管的人是四拨不同的人。他们的激励不对齐，权力也不对等。保险公司有法务团队和自动化拒绝系统；患者连怎么上诉都不知道。初创公司和科技公司掌控算法和数据；医生在使用工具的同时看不到里面的全貌；患者不知道自己的病历是AI写的。信息不对称同样深刻：当超过一半的FDA决策摘要连样本量都不披露时，系统外的任何人都很难对什么是安全的做出知情判断。

最有权力的参与者的历史记录也不令人放心。保险公司用AI将拒绝率翻倍，而其中75%最终证明是错误的。监管方批准了超过1,400个AI设备，不到10个有临床试验支持。这些不是极端案例，这就是系统按其设计运行的方式——只是这个设计不是为患者做的。

这才是医疗AI和我看过的所有其他领域根本不同的地方。也是为什么我觉得上面那些问题不只是学术问题。它们是关于——当房间里的每个人都拥有更多的权力、更多的信息、和不同的理由要快速推进时，到底谁在真正替患者着想。

来源： 所有声明均在行内链接到原始来源。关键研究: JAMA RCT (2024) · npj Digital Medicine荟萃分析 (2026) · npj AI互补性研究 (2025) · 环境转录编辑研究 (2026) · NEJM AI审查负担 (2024) · He等人数据污染 (2026) · 内镜技能退化 (2025) · 临床AI飞行规则 (2026) · 路透社手术AI (2026) · Medicare Advantage AI拒绝 (2026) · NVIDIA调查 (2026) · FDA设备证据缺口 (JAMA 2025) · 警报覆盖率