让人工智能模型在高风险场景中更值得信赖

来源:MIT 作者:Adam Zewe

让人工智能模型在高风险场景中更值得信赖

一种新方法有助于更精确地传达不确定性,这能为研究人员和医学临床医生提供更好的信息,以便他们做出决策。
医学影像中的模糊性给试图诊断疾病的临床医生带来了巨大挑战。例如,在胸部 X 光片中,胸腔积液(肺部液体的异常积聚)看起来可能与肺部浸润(脓液或血液的积聚)非常相似。
人工智能模型可以通过帮助识别细微细节和提高诊断过程的效率,协助临床医生进行 X 光片分析。但是,由于一张图像中可能存在多种病症,临床医生可能希望考虑一系列的可能性,而不只是评估人工智能给出的一个预测结果。
有一种很有前景的生成一系列可能性的方法,叫做共形分类,这种方法很方便,因为它可以很容易地在现有的机器学习模型之上实现。然而,它生成的可能性集合可能会大得不太现实。
麻省理工学院的研究人员现在开发出了一种简单而有效的改进方法,这种方法可以将预测集合的规模缩小多达 30%,同时还能让预测结果更可靠。
较小的预测集合可能有助于临床医生更高效地锁定正确的诊断结果,这可以改善并简化对患者的治疗。这种方法可能在一系列分类任务中都有用 —— 比如,从野生动物园的图像中识别动物的种类 —— 因为它能提供规模较小但更准确的选项集合。
康奈尔科技学院的博士后迪维亚・尚穆加姆(Divya Shanmugam)博士 2024 年毕业,她在麻省理工学院读研究生时开展了这项研究。她说:“需要考虑的类别更少,预测集合自然就更有参考价值,因为你只需在更少的选项中进行选择。从某种意义上说,为了获得更有参考价值的内容,你在准确性方面并没有真正做出牺牲。”
这篇论文的作者还有海伦・卢(Helen Lu),2024 年毕业;斯瓦米・桑卡纳拉扬(Swami Sankaranarayanan),曾是麻省理工学院的博士后,现在是 Lilia 生物科学公司的一名研究科学家;以及资深作者约翰・古特加(John Guttag),他是麻省理工学院杜加尔德・C・杰克逊计算机科学与电气工程教授,也是麻省理工学院计算机科学与人工智能实验室(CSAIL)的成员。这项研究成果将在 6 月的计算机视觉与模式识别会议上展示。

预测保证

被用于高风险任务(比如对医学影像中的疾病进行分类)的人工智能助手,通常会在给出每个预测结果的同时生成一个概率分数,以便用户可以评估模型的置信度。例如,一个模型可能预测一张图像对应某种特定诊断(如胸膜炎)的概率为 20%。
但是很难信任模型预测的置信度,因为之前的许多研究都表明,这些概率可能并不准确。使用共形分类时,模型的预测结果会被一组最有可能的诊断结果所取代,同时还保证正确的诊断结果一定在这组结果当中。
但是人工智能预测中固有的不确定性常常导致模型输出的集合太大,没有实际用处。
例如,如果一个模型要将图像中的动物分类为 10000 种潜在物种中的一种,它可能会输出一个包含 200 个预测结果的集合,这样它就能提供一个较为可靠的保证。
尚穆加姆说:“对于要筛选出正确类别的人来说,200 个类别实在是太多了。”
这种技术也不可靠,因为对输入进行微小的改变,比如稍微旋转一张图像,就可能产生完全不同的预测集合。
为了让共形分类更有用,研究人员应用了一种为提高计算机视觉模型准确性而开发的技术,叫做测试时增强(TTA)。
测试时增强会对数据集中的单张图像进行多种增强处理,比如裁剪图像、翻转图像、放大图像等等。然后,它将计算机视觉模型应用于同一张图像的每个版本,并汇总其预测结果。
尚穆加姆解释说:“通过这种方式,你可以从单个样本中得到多个预测结果。以这种方式汇总预测结果可以提高预测的准确性和稳健性。”

最大化准确性

为了应用测试时增强技术,研究人员留出了一些用于共形分类过程的带标记图像数据。他们学习在这些留出的数据上汇总增强处理的结果,以一种能最大化底层模型预测准确性的方式自动增强图像。
然后,他们对经过测试时增强技术转换后的模型新预测结果进行共形分类。共形分类器在同样的置信度保证下,输出了规模较小的一组可能的预测结果。
尚穆加姆说:“将测试时增强与共形预测相结合,实现起来很简单,在实际应用中也很有效,而且不需要对模型进行重新训练。”
与之前在几个标准图像分类基准上进行的共形预测研究相比,他们的测试时增强方法在各个实验中都缩小了预测集合的规模,缩小幅度在 10% 到 30% 之间。
重要的是,这种技术在缩小预测集合规模的同时,保持了概率保证。
研究人员还发现,尽管他们牺牲了一些通常用于共形分类过程的带标记数据,但测试时增强技术提高的准确性足以弥补失去这些数据所带来的损失。
尚穆加姆说:“这就引出了一个有趣的问题,即我们在模型训练后如何使用带标记的数据。在不同的训练后步骤中分配带标记的数据是未来研究的一个重要方向。”
未来,研究人员希望在对文本而非图像进行分类的模型背景下,验证这种方法的有效性。为了进一步改进这项工作,研究人员还在考虑如何减少测试时增强技术所需的计算量。

本文转载自MIT,本文观点不代表雅典娜AI助手YadiannaAI立场。

(0)
Athena的头像Athena
上一篇 3天前
下一篇 3天前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

客服邮箱: kefu@yadiannaai.com

投稿邮箱:tougao@yadiannaai.com

合作邮箱:hezuo@yadiannaai.com

关注微信