当前位置:网者头条 >> 科学知识

新技术克服了AI中的虚假相关问题

科学知识 2025-09-26 7897

摘要:AI模型通常依靠“虚假相关性”,基于不重要且潜在的误导信息做出决定。现在,研究人员发现这些学到的虚假相关性可以追溯到训练数据的一小部分,并证明了一种克服问题的技术。...

AI模型通常依赖于“虚假相关性”,这是基于不重要且潜在的误导信息做出决定的。现在,研究人员发现这些学到的虚假相关性可以追溯到训练数据的一小部分,并证明了一种克服问题的技术。

新技术克服了AI中的虚假相关问题

“这项技术是新颖的,即使您不知道AI依赖于AI的虚假相关性,也可以使用它,”北卡罗来纳州立大学的一篇论文,一篇有关该作品的助理教授的作者Jung-eun Kim说。 “如果您已经对虚假特征有一个很好的了解,我们的技术是解决问题的有效方法。但是,即使您只是遇到绩效问题,但不明白为什么,您仍然可以使用我们的技术来确定是否存在虚假的相关性并解决该问题。”

伪造的相关性通常是由AI培训期间的简单性偏差引起的。从业者使用数据集训练AI模型来执行特定的任务。例如,可以训练AI模型来识别狗的照片。训练数据集将包括狗的图片,其中告诉狗在照片中。在培训过程中,AI将开始识别它可以用来识别狗的特定功能。但是,如片中的许多狗都戴着项圈,并且由于衣领通常比耳朵或毛皮不那么复杂,因此AI可以使用项圈作为识别狗的简单方法。这就是简单性偏见会引起虚假相关性的方式。

金说:“如果AI使用项圈作为识别狗的因素,AI可能会识别猫作为狗的猫。”

解决由虚假相关性引起的问题的传统技术取决于从业者能够识别引起问题的虚假特征。然后,他们可以通过修改用于训练AI模型的数据集来解决此问题。例如,从业者可能会增加数据集中照片的重量,其中包括不戴衣领的狗。

但是,在新作品中,研究人员表明,并非总是有可能识别引起问题的虚假特征 - 使解决虚假相关性的传统技术无效。

金说:“这项工作的目标是开发一种技术,即使我们对那些虚假特征一无所知,也可以使我们破坏虚假的相关性。”

新技术依赖于删除用于训练AI模型的一小部分数据。

金说:“培训数据集中包含的数据样本可能存在重大差异。” “某些样本可能非常简单,而其他样本可能非常复杂。我们可以根据模型在训练过程中的表现来衡量每个样本的'困难'。

Kim解释说:“我们的假设是,数据集中最困难的样本可能是嘈杂和模棱两可的,并且最有可能迫使网络依靠损害模型性能的无关信息。” “通过消除一小撮训练数据,这些数据很难理解,您还消除了包含虚假特征的硬数据样本。这种消除使虚假的相关问题克服了问题,而不会造成重大的不利影响。”

研究人员证明,新技术可以实现最先进的结果 - 即使与以前的虚假特征可识别的模型相比,即使在模型上也可以提高性能。

经过同行评审的论文“与数据修剪的杂乱无章的相关性”将在4月24日至28日在新加坡举行的国际学习代表会议(ICLR)举行。该论文的第一作者是Varun Mulchandani,博士学位。北卡罗来纳州的学生。

相关推荐
友情链接