当前位置:网者头条 >> 科学知识

研究表明,视觉模型无法用否定词处理查询

科学知识 2025-06-28 3172

摘要:研究人员发现,广泛用于分析医学图像的视觉模型不了解诸如“否”和“不”之类的否定词。当被要求检索包含某些对象但没有其他物体的医学图像时,这可能会导致他们意外失败。...

想象一下,放射科医生检查了新患者的胸部X射线。她注意到患者在组织中肿胀,但心脏不足。希望加快诊断的速度,她可能会使用视觉语言机器学习模型来搜索类似患者的报告。

研究表明,视觉模型无法用否定词处理查询

但是,如果该模型错误地识别出两种情况下的报告,则最有可能的诊断可能会大不相同:如果患者的组织肿胀和心脏扩大,则该病情很可能与心脏相关,但没有心脏扩大,可能会有几种根本原因。

在一项新的研究中,麻省理工学院的研究人员发现,视觉语言模型极有可能在现实世界中犯这样的错误,因为他们不了解否定 - 诸如“ no”和“ not”之类的词都表明了错误或不存在的词。

麻省理工学院研究生兼这项研究的主要作者Kumail Alhamoud说:“这些否定词可能会产生非常重大的影响,如果我们只是盲目使用这些模型,我们可能会遇到灾难性的后果。”

研究人员测试了视觉模型在图像标题中识别否定的能力。这些模型通常会像随机的猜测一样。在这些发现的基础上,团队创建了一个图像数据集,其中包含描述缺失对象的否定字幕。

他们表明,当要求模型检索不包含某些对象的图像时,使用此数据集侦查视觉模型会导致性能改进。它还可以提高用否定字幕回答的多项选择问题的准确性。

但是研究人告说,需要更多的工作来解决该问题的根本原因。他们希望他们的研究向潜在用户提醒以前未知的缺点,该缺点可能会在当前使用这些模型的高风险环境中产生严重影响,从确定哪些患者接受某些治疗方法到识别制造厂中的产品缺陷。

高级作家Marzyeh Ghassemi说:“这是一篇技术论文,但要考虑的问题更大。

麻省理工学院研究生Shaden Alshammari加入了Ghassemi和Alhamoud。 Openai的Yonglong Tian; Guohao Li,牛津大学的前博士后;菲利普·H.S。托尔(Torr),牛津大学的教授; EECS的助理教授,MIT的计算机科学和人工智能实验室(CSAIL)成员Yoon Kim。该研究将在计算机视觉和模式识别会议上介绍。

忽略否定

视觉语言模型(VLM)是使用大量图像和相应字幕的培训,他们学会编码为数字集,称为矢量表示。模型使用这些向量来区分不同的图像。

VLM使用两个单独的编码器,一个用于文本,一个用于图像,编码器学会为图像及其相应的文本字幕输出相似的向量。

“字幕表达图像中的内容 - 它们是一个积极的标签。这实际上是整个问题。没有人看着狗跳过篱笆的图像,并说“一只狗跳过篱笆,没有直升机,” Ghassemi说。

由于图像捕获数据集不包含否定示例,因此VLMS永远不会学会识别它。

为了深入研究这个问题,研究人员设计了两个基准任务,以测试VLMS了解否定的能力。

首先,他们使用大型语言模型(LLM)来在现有数据集中重新捕获图像,要求LLM考虑不在图像中的相关对象并将其写入标题中。然后,他们通过提示他们使用否定词来检索包含某些对象但没有其他对象的图像来测试模型。

对于第二个任务,他们设计了多项选择问题,要求VLM从密切相关选项列表中选择最合适的标题。这些字幕仅通过添加对图像中不出现的对象的引用或否定确实出现在图像中的对象而有所不同。

两项任务的模型通常都失败了,图像检索性能在否定字幕上下降了近25%。在回答多项选择问题时,最佳模型仅达到了约39%的准确性,几个模型以随机的机会进行甚至低于随机的机会。

造成此失败的原因之一是研究人员称之为肯定偏见的捷径 - VLMS忽略了否定词,而是专注于图像中的对象。

“这不仅发生在诸如'no'和'not'之类的单词中。无论您如何表达否定或排斥,这些模型都会简单地忽略它。” Alhamoud说。

在他们测试的每个VLM中,这都是一致的。

“可解决的问题”

由于VLM通常不会对图像标题进行否定训练,因此研究人员开发了带有否定词的数据集,作为解决问题的第一步。

使用具有1000万个图像文本字幕对的数据集,他们促使LLM提出了相关的字幕,以指定从图像中排除的内容,从而产生带有否定词的新字幕。

他们必须特别小心,以确保这些合成字幕仍然自然阅读,或者当面对人类编写的更复杂的字幕时,可能会导致VLM在现实世界中失败。

他们发现,将VLM及其数据集的FINETUNTUNENTENTINT逐渐增长。它将模型的图像检索能力提高了约10%,同时还将多项选择性答案任务的性能提高了约30%。

“但是我们的解决方案并不是完美的。我们只是在捕获数据集,这是一种数据增强形式。我们甚至没有触摸这些模型的工作原理,但我们希望这表明这是一个可解决的问题,其他人可以采用我们的解决方案并改进解决方案,” Alhamoud说。

同时,他希望他们的工作鼓励更多用户考虑他们想使用VLM解决和设计一些示例以在部署之前对其进行测试的问题。

将来,研究人员可以通过教导VLM分别处理文本和图像来扩展这项工作,这可能会提高他们理解否定的能力。此外,他们可以开发其他数据集,其中包括用于特定应用程序(例如医疗保健)的图像捕获对。

相关推荐
友情链接