来源:AINEWS 作者:Ryan Daws

谷歌通过其对 AMIE(清晰医学智能探索器,Articulate Medical Intelligence Explorer)的最新研究,赋予了其诊断型人工智能理解医学视觉信息的能力。
想象一下,你就健康问题与人工智能交流,它不仅能处理你说的话,还能实际查看你那令人担忧的皮疹照片,或者解读你的心电图打印结果。这正是谷歌努力的目标。
由于早期发表在《自然》杂志上的研究成果,我们已经知道 AMIE 在基于文本的医学对话方面很有潜力。但说实话,真正的医学可不只是靠文字。
医生在很大程度上依赖他们所看到的东西 —— 皮肤状况、机器读数、实验室报告。正如谷歌团队正确指出的那样,即使是简单的即时通讯平台也 “允许静态的多模态信息(如图像和文件)来丰富讨论内容”。
仅基于文本的人工智能缺失了很大一块拼图。正如研究人员所说,关键问题在于 “大语言模型能否进行结合了这种更复杂信息类型的临床诊断对话”。
谷歌教会 AMIE 观察和推理
谷歌的工程师们利用他们的 Gemini 2.0 Flash 模型作为核心,对 AMIE 进行了强化。他们将其与所谓的 “状态感知推理框架” 相结合。用通俗易懂的话来说,这意味着人工智能不只是按部就班;它会根据目前所学到的知识以及仍需弄清楚的内容来调整对话。
这与人类临床医生的工作方式很接近:收集线索,形成可能病因的想法,然后询问更具体的信息 —— 包括视觉证据 —— 以缩小范围。
谷歌解释道:“这使 AMIE 能够在需要时请求相关的多模态信息,准确解读其发现,将这些信息无缝融入正在进行的对话中,并利用这些信息完善诊断。”
想象一下,对话分阶段进行:首先收集患者的病史,然后转向诊断和给出治疗建议,最后进行随访。人工智能会不断评估自己的理解,如果感觉到知识有缺口,就会索要皮肤照片或实验室结果。
为了在不拿真人进行无尽的反复试验的情况下做到这一点,谷歌建立了一个详细的模拟实验室。
谷歌创建了逼真的患者病例,从 PTB-XL 心电图数据库和 SCIN 皮肤病图像集等来源获取真实的医学图像和数据,并使用 Gemini 添加合理的背景故事。然后,他们让 AMIE 在这个设定中与模拟患者 “聊天”,并自动检查它在诊断准确性和避免错误(或 “幻觉”)等方面的表现。
虚拟客观结构化临床考试:谷歌对 AMIE 进行严格测试
真正的考验来自于一个旨在模拟医学生考核方式的设定:客观结构化临床考试(Objective Structured Clinical Examination,简称 OSCE)。
谷歌进行了一项远程研究,涉及 105 种不同的医疗场景。经过训练、能始终如一地扮演患者的真实演员,与新的多模态 AMIE 或实际的人类初级保健医生(PCP)进行互动。这些对话通过一个界面进行,“患者” 可以在这个界面上上传图像,就像在现代即时通讯应用中一样。
之后,皮肤科、心脏病科和内科的专科医生以及扮演患者的演员本人对对话进行了评估。
人类医生对各个方面进行评分,从病史采集的质量、诊断的准确性、建议的治疗计划的质量,一直到沟通技巧和共情能力 —— 当然,还有人工智能对视觉信息的解读能力。
模拟诊所中的惊人结果
真正有趣的地方来了。在这个受控研究环境中的直接对比中,谷歌发现 AMIE 不仅不落下风,而且还常常更胜一筹。
在解读聊天过程中共享的多模态数据方面,人工智能的评分高于人类初级保健医生。它在诊断准确性方面的得分也更高,所生成的鉴别诊断列表(可能病症的排名列表),专科医生根据病例细节认为更准确、更完整。
审查对话记录的专科医生往往在大多数方面给 AMIE 的表现打出更高的分数。他们特别提到了 “图像解读和推理的质量”、诊断检查的全面性、治疗计划的合理性,以及它在情况需要紧急关注时发出警示的能力。
也许最令人惊讶的发现之一来自扮演患者的演员:在这些基于文本的互动中,他们常常觉得人工智能比人类医生更有共情能力,也更值得信赖。
而且,在关键的安全性方面,研究发现 AMIE 基于图像产生错误(出现幻觉性结果)的频率与人类医生相比,在统计学上没有显著差异。
技术在不断发展,所以谷歌还进行了一些早期测试,用更新的 Gemini 2.5 Flash 模型替换了 Gemini 2.0 Flash 模型。
利用他们的模拟框架,测试结果暗示了进一步的提升,特别是在正确诊断(前三诊断准确率,Top-3 Accuracy)和给出合适的治疗计划方面。
尽管前景乐观,但研究团队很快补充了一些现实情况:这些只是自动化的结果,“通过专家医生的严格评估来确认这些性能优势至关重要”。
重要的现实考量
谷歌对其中的局限性直言不讳,值得称赞。他们明确指出:“这项研究在 OSCE 式评估中使用扮演患者的演员,探索了一个仅用于研究的系统,这大大低估了现实世界医疗护理的复杂性……”
无论设计得多么好,模拟场景都无法与在繁忙的诊所中处理真实患者的独特复杂性相提并论。他们还强调,聊天界面无法捕捉到真实视频或当面咨询的丰富性。
那么,下一步是什么呢?谨慎地迈向现实世界。谷歌已经与贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center)合作开展一项研究,在获得患者同意的情况下,观察 AMIE 在实际临床环境中的表现。
研究人员也认识到,最终需要超越文本和静态图像,能够处理实时视频和音频 —— 这是如今远程医疗中常见的互动方式。
赋予人工智能 “看懂” 并解读医生日常使用的视觉证据的能力,让我们看到了人工智能有朝一日可能如何协助临床医生和患者。然而,从这些有希望的发现到成为日常医疗保健中安全可靠的工具,还有很长的路要走,需要谨慎前行。
本文转载自AINEWS,本文观点不代表雅典娜AI助手YadiannaAI立场。