改进机器学习模型可靠性的技术

麻省理工学院的研究人员开发了一种机器学习模型,可以在不使用额外数据的情况下确定预测的置信度。

通过亚当Zewe 2023年3月7日
图片由Brett Sayles提供

机器学习见解

  • 研究人员现在开发了一种技术,使模型能够执行更有效的不确定性量化,而无需使用额外的计算资源或添加的数据。
  • 由于ChatGPT等模型的兴起,机器学习(ML)已成为最近的热门话题,这些技术以及量子计算等其他发展将有助于使这些系统更好、更高效。

强大的机器学习模型正被用来帮助人们解决棘手的问题,比如在医学图像中识别疾病,或者为自动驾驶汽车检测道路障碍。但是机器学习模型也会犯错,所以在高风险环境下,人类知道什么时候应该相信模型的预测是至关重要的。

不确定性量化是一种提高模型可靠性的工具;该模型在预测的同时产生一个分数,该分数表示预测正确的置信度。虽然不确定性量化可能是有用的,但现有的方法通常需要重新训练整个模型来赋予它这种能力。训练包括向一个模型展示数百万个例子,这样它就可以学习一项任务。然后再培训需要数百万个新的数据输入,这可能是昂贵和难以获得的,还需要使用大量的计算资源。

麻省理工学院和麻省理工学院- ibm沃森人工智能实验室的研究人员现在开发了一种技术,使模型能够执行更有效的不确定性量化,同时使用比其他方法少得多的计算资源,并且不需要额外的数据。他们的技术不需要用户重新训练或修改模型,对于许多应用来说足够灵活。

该技术包括创建一个更简单的辅助模型,以帮助原始机器学习模型估计不确定性。这个较小的模型旨在识别不同类型的不确定性,这可以帮助研究人员深入研究不准确预测的根本原因。

“不确定性量化对于机器学习模型的开发人员和用户都是至关重要的。开发人员可以利用不确定性度量来帮助开发更健壮的模型,而对于用户来说,当在现实世界中部署模型时,它可以增加另一层信任和可靠性。我们的工作为不确定性量化提供了一个更灵活和实用的解决方案,”电机工程和计算机科学研究生沈茂豪说,他是一项研究的主要作者在这个技巧上。

Shen和Yuheng Bu一起写了这篇论文,Yuheng Bu曾是电子研究实验室(RLE)的博士后,现在是佛罗里达大学的助理教授;麻省理工学院- ibm沃森人工智能实验室的研究人员Prasanna Sattigeri、Soumya Ghosh和Subhro Das;高级作者Gregory Wornell,住友大学工程学教授,领导信号、信息和算法实验室RLE,也是麻省理工学院- ibm沃森人工智能实验室的成员。这项研究将在AAAI人工智能会议上公布。

量化不确定性

在不确定性量化中,机器学习模型为每个输出生成一个数值分数,以反映其对预测准确性的信心。通过从零开始构建新模型或重新训练现有模型来整合不确定性量化通常需要大量数据和昂贵的计算,这通常是不切实际的。此外,现有的方法有时会产生意想不到的后果,降低模型预测的质量。

因此,麻省理工学院和麻省理工学院- ibm沃森人工智能实验室的研究人员将注意力集中在以下问题上:给定一个预训练的模型,他们如何使其能够执行有效的不确定性量化?

他们通过创建一个更小、更简单的模型(称为元模型)来解决这个问题,该模型附加到更大、预训练的模型上,并使用更大模型已经学习到的特征来帮助它进行不确定性量化评估。

元模型可以应用于任何预训练的模型。最好能够访问模型的内部,因为我们可以获得关于基本模型的更多信息,但如果只有最终输出,它也可以工作。它仍然可以预测信心得分。”

他们设计了元模型,使用一种包括两种不确定性的技术来产生不确定性量化输出:数据不确定性和模型不确定性。数据不确定性是由损坏的数据或不准确的标签引起的,只能通过修复数据集或收集新数据来降低数据不确定性。在模型不确定性中,模型不确定如何解释新观察到的数据,可能会做出不正确的预测,这很可能是因为它没有看到足够多的类似训练示例。在部署模型时,这个问题特别具有挑战性,但也是常见的问题。在现实环境中,他们经常会遇到与训练数据集不同的数据。

“当你在新的环境中使用模型时,你决策的可靠性是否发生了变化?”你需要某种方式来确定它是否在这种新体制下有效,或者你是否需要为这种特定的新环境收集训练数据。”沃内尔说。

验证量化

一旦一个模型产生了一个不确定性量化分数,用户仍然需要保证分数本身是准确的。研究人员通常通过创建一个较小的数据集来验证准确性,从原始训练数据中提取数据,然后在提取的数据上测试模型。然而,这种技术在测量不确定性量化方面效果不佳,因为模型可以在过于自信的情况下获得良好的预测精度。

他们通过在验证集中的数据中添加噪声来创建了一种新的验证技术——这种噪声数据更像是分布在外的数据,可能会导致模型的不确定性。研究人员使用这个有噪声的数据集来评估不确定性量化。

他们测试了他们的方法,看看一个元模型如何为各种下游任务捕获不同类型的不确定性,包括分布外检测和错误分类检测。他们的方法不仅在每个下游任务中优于所有基线,而且实现这些结果所需的训练时间更少。

这项技术可以帮助研究人员启用更多的机器学习模型来有效地执行不确定性量化,最终帮助用户在何时信任预测方面做出更好的决策。

下一步,研究人员希望将他们的技术应用于更新的模型类别,例如具有不同于传统神经网络结构的大型语言模型,Shen说。

-由Chris Vavra编辑,网页内容经理,控制工程, CFE媒体与技术,cvavra@cfemedia.com


作者简介:Adam Zewe,麻省理工学院新闻办公室