联系方式 Contact

天气在线(北京)气象科技有限公司

地址:北京市海淀区海淀西大街36号9层

电话:010-58995339

手机:18611808504

传真:010-58995339

网址:www.weatheron.cn

搜索 Search
你的位置:首页 > 新闻动态 > 行业新闻

使用Dirichlet元模型的Post-hoc不确定性学习,可提高机器学习的可靠性

 2023-03-22 21:25:10  点击:

原创 ScienceAI 


编辑 | 萝卜皮

众所周知,神经网络在直接使用输出标签分布生成不确定性度量时存在过度自信的问题。现有方法主要通过重新训练整个模型来解决这个问题,以施加不确定性量化能力,使学习模型能够同时达到预期的准确性和不确定性预测性能。

然而,从头开始训练模型的计算成本很高,在许多情况下可能不可行。

在最近的一项研究中,麻省理工学院和 MIT-IBM 沃森人工智能实验室的研究团队考虑了一个更实用的事后不确定性学习设置,其中给出了训练有素的基础模型,研究人员专注于训练第二阶段的不确定性量化任务。他们提出了一种新颖的贝叶斯元模型,以增强具有更好不确定性量化能力的预训练模型,这是有效且计算效率高的。

该团队提出的方法不需要额外的训练数据,并且足够灵活,可以量化不同的不确定性并轻松适应不同的应用设置,包括域外数据检测、错误分类检测和可信迁移学习。研究人员通过多个代表性图像分类基准证明了他们提出的元模型方法在这些应用程序上的灵活性和卓越的经验性能。

该研究以「Post-hoc Uncertainty Learning using a Dirichlet Meta-Model」为题,于 2022 10 14 日发布在 arXiv 预印平台。

尽管深度神经网络在各种实际任务中取得了令人鼓舞的性能,但近年来不确定性量化(UQ)引起了越来越多的关注,以满足对更稳健和可靠的机器学习模型的新兴需求,因为昆士兰大学旨在定量衡量模型预测的可靠性。对于自动驾驶、医疗诊断等对误差预测高度敏感的领域,准确的不确定性估计尤为关键。

大多数最先进的方法都侧重于构建具有不确定性量化能力的深度模型,以便单个深度模型可以同时实现所需的预测和 UQ 性能。然而,这种 UQ 方法存在实际局限性,因为它要么需要特定的模型结构,要么明确地从头开始训练整个模型以施加不确定性量化能力。

更现实的情况是由于实际限制,以事后方式量化预训练模型的不确定性。例如,(1)与预测精度和泛化性能相比,深度学习模型的不确定性量化能力通常被认为具有较低的优先级,特别是对于以利润为导向的应用,如推荐系统;(2)一些应用程序要求模型施加其他约束,例如公平性或隐私性,这可能会牺牲 UQ 性能;(3)对于迁移学习等一些应用,预训练模型通常是可用的,从头开始训练新模型可能会浪费资源。

在这些实际问题的推动下,麻省理工的研究人员专注于解决事后不确定性学习问题,即给定一个预训练模型,如何在不影响其预测性能的情况下提高其 UQ 质量。先前在事后设置中改进不确定性质量的工作主要针对改进校准。这些方法通常无法增强预训练模型的能力,使其能够捕获不同的不确定性来源,例如认知不确定性,这对于分布外 (OOD) 检测等应用至关重要。最近的几项工作采用了元建模方法,其中训练元模型以预测预训练模型在验证样本上是否正确。这些方法仍然依赖于元模型参数的点估计,这可能是不可靠的,尤其是在验证集很小的时候。

图示:元模型结构。(来源:论文)

在这里,麻省理工的研究团队提出了一种新颖的基于贝叶斯元模型的不确定性学习方法来缓解上述问题。该方法不需要除训练数据集以外的其他数据,并且足够灵活以量化不同类型的不确定性并轻松适应不同的应用程序设置。

他们的实证结果提供了有关元模型训练的重要见解:(1) 跨不同层的特征表示的多样性对于不确定性量化至关重要,尤其是对于域外 (OOD) 数据检测任务;(2) 利用 Dirichlet 元模型捕捉不同的不确定性,包括总不确定性和认知不确定性;(3)不确定性学习中存在类似于监督学习的过拟合问题,需要通过新颖的验证策略来解决以获得更好的性能。此外,该方法具有适应各种应用的灵活性,包括 OOD 检测、错误分类检测和可信赖的迁移学习。


图示:在 OOD 检测应用程序中提出的元模型方法的玩具示例显示了不同层中特征的多样性。(来源:论文)

「不确定性量化对于机器学习模型的开发人员和用户都是必不可少的。开发人员可以利用不确定性测量来帮助开发更强大的模型,而对于用户来说,它可以在现实世界中部署模型时增加另一层信任和可靠性。我们的工作为不确定性量化提供了一种更灵活、更实用的解决方案。」电气工程和计算机科学研究生、该论文的主要作者 Maohao Shen 说。

量化不确定性

在不确定性量化中,机器学习模型会为每个输出生成一个数值分数,以反映其对该预测准确性的信心。通过从头开始构建新模型或重新训练现有模型来纳入不确定性量化通常需要大量数据和昂贵的计算,这通常是不切实际的。更重要的是,现有方法有时会产生降低模型预测质量的意外后果。

因此,麻省理工学院和 MIT-IBM 沃森人工智能实验室的研究人员将注意力集中在以下问题上:给定一个预训练模型,他们如何使其能够执行有效的不确定性量化?

他们通过创建一个更小、更简单的模型(称为元模型)来解决这个问题,该模型附加到更大的预训练模型,并使用更大的模型已经学会的特征来帮助它进行不确定性量化评估。

「元模型可以应用于任何预训练模型。最好能够访问模型的内部结构,因为我们可以获得更多关于基础模型的信息,但如果你只有最终输出,它也可以工作。它仍然可以预测置信度得分。」这项研究的参与者 Prasanna Sattigeri 说。

他们设计元模型以使用包括两种类型不确定性的技术产生不确定性量化输出:数据不确定性和模型不确定性。数据不确定性是由损坏的数据或不准确的标签引起的,只能通过修复数据集或收集新数据来减少。在模型不确定性中,模型不确定如何解释新观察到的数据,并可能做出错误的预测,这很可能是因为它没有看到足够多的相似训练示例。在部署模型时,这个问题是一个特别具有挑战性但很常见的问题。在现实世界中,他们经常遇到与训练数据集不同的数据。

「当你在新环境中使用该模型时,你的决定的可靠性是否发生了变化?你需要某种方式来确定它是否适用于这种新制度,或者你是否需要为这种特定的新环境收集训练数据。」论文通讯作者 Gregory Wornell 说。

验证量化

一旦模型产生了不确定性量化分数,用户仍然需要确保分数本身是准确的。研究人员通常通过创建一个较小的数据集来验证准确性,该数据集是从原始训练数据中提取出来的,然后在提取的数据上测试模型。然而,这种技术在测量不确定性量化方面效果不佳,因为该模型可以实现良好的预测精度,同时仍然过于自信,Shen 说。

他们通过向验证集中的数据添加噪声创建了一种新的验证技术——这种噪声数据更像是可能导致模型不确定性的分布外数据。研究人员使用这个嘈杂的数据集来评估不确定性量化。

他们通过查看元模型如何为各种下游任务捕获不同类型的不确定性来测试他们的方法,包括分布外检测和错误分类检测。他们的方法不仅在每个下游任务中优于所有基线,而且实现这些结果所需的训练时间更少。

这项技术可以帮助研究人员启用更多机器学习模型来有效地执行不确定性量化,最终帮助用户更好地决定何时相信预测。

展望未来,研究人员希望将他们的技术应用于更新的模型类别,例如具有与传统神经网络不同结构的大型语言模型,Shen 说。

论文链接:https://arxiv.org/abs/2212.07359

相关报道:https://techxplore.com/news/2023-02-efficient-technique-machine-learning-reliability.html