当前位置:网者头条 >> 科学知识

像人的大脑一样,大型语言模型以一般方式推理了各种数据

科学知识 2025-10-10 7985

摘要:研究人员发现,大型语言模型处理各种类型的数据,例如不同的语言,音频输入,图像等,与人类对复杂问题的推论类似。像人类一样,LLM在中央枢纽中以输入型 - 敏捷方式处理数据的数据输入。...

尽管早期语言模型只能处理文本,但现代大型语言模型现在在不同类型的数据上执行高度多样化的任务。例如,LLM可以理解许多语言,生成计算机代码,解决数学问题或回答有关图像和音频的问题。

像人的大脑一样,大型语言模型以一般方式推理了各种数据

麻省理工学院的研究人员探究了LLM的内部工作,以更好地了解它们如何处理此类数据,并发现证据表明他们与人脑有些相似之处。

神经科学家认为,人脑在前颞叶中具有“语义中心”,该叶子从各种模式(例如视觉数据和触觉输入)中整合了语义信息。该语义枢纽连接到特定于模态的“辐条”,该信息将信息路由到集线器。麻省理工学院的研究人员发现,LLMS通过以中央广泛的方式从不同方式处理数据来使用类似的机制。例如,以英语为主导语言的模型将依靠英语作为一种中心媒介来处理日语的输入或有关算术,计算机代码等的理由。此外,研究人员证明,即使在其他语言中处理模型,他们也可以通过更改模型的输出来更改模型的输出,从而在模型中使用模型中的文本来干预模型的语言中心。

这些发现可以帮助科学家培训能够更好地处理多种数据的未来LLM。

Zhaofeng Wu说:“ LLM是黑框。他们的表现非常令人印象深刻,但是我们对它们的内部工作机制几乎没有知识。我希望这可以更好地了解它们的工作方式,以便我们可以在需要时改进它们,并在需要时更好地控制它们。”

他的合着者包括南加州大学(USC)的研究生Xinyan Velocity Yu;南加州大学副教授Dani Yogatama;苹果研究科学家Jiasen Lu; MIT的EEC助理教授,计算机科学和人工智能实验室(CSAIL)的成员和高级作家Yoon Kim。该研究将在国际学习表现会议上介绍。

集成多种数据

研究人员将新的研究基于先前的工作,该研究暗示以英语为中心的LLM使用英语对各种语言进行推理过程。

吴和他的合作者扩大了这个想法,对LLMS用于处理多种数据的机制进行了深入的研究。

由许多互连层组成的LLM将输入文本分为单词或称为令牌的子字。该模型为每个令牌分配一个表示形式,这使其能够探索令牌之间的关系,并以序列生成下一个单词。在图像或音频的情况下,这些令牌对应于图像的特定区域或音频剪辑的部分。

研究人员发现,该模型的初始层以其特定语言或方式处理数据,例如人脑中的模式特异性辐条。然后,LLM将代币转换为模态无形的表示形式,因为它在整个内部层中都对它们进行了建议,类似于大脑的语义中心如何整合多种信息。

该模型尽管具有数据类型,包括图像,音频,计算机代码和算术问题,但分配了类似含义的输入的类似表示。即使图像及其文本字幕是不同的数据类型,因为它们具有相同的含义,但LLM也会为它们分配相似的表示形式。

例如,英文主导的LLM“思考”有关英文中文文本输入,然后再产生中文输出。该模型对非文本输入(例如计算机代码,数学问题甚至多模式数据)具有类似的推理趋势。

为了检验这一假设,研究人员通过了一对具有相同含义的句子,但通过模型用两种不同的语言编写。他们衡量了每个句子的模型表示的相似性。

然后,他们进行了第二组实验,在其中用不同的语言(例如中文)喂养了英语主导的模型文本,并测量了其内部表示与英语与中文的相似性。研究人员对其他数据类型进行了类似的实验。

他们一贯发现,对于具有相似含义的句子,模型的表示形式相似。此外,在许多数据类型中,代币在其内部层中处理的模型比输入数据类型更像是以英语为中心的令牌。

吴说:“这些输入数据类型似乎与语言有很大不同,因此我们非常惊讶的是,当模型处理(例如,数学或编码表达式)时,我们可以探索英语tokens。”

利用语义中心

研究人员认为,LLM可以在培训期间学习这种语义中心策略,因为这是处理多种数据的经济方式。

吴说:“那里有成千上万的语言,但是很多知识都共享,例如常识性知识或事实知识。该模型不需要跨语言复制这些知识。”

研究人员还尝试在处理其他语言时使用英语文本在模型的内部层中进行干预。他们发现,即使这些输出是其他语言,他们也可以预测地更改模型输出。

科学家可以利用这一现象来鼓励模型在各种数据类型上共享尽可能多的信息,从而提高效率。

但是,另一方面,可能存在概念或知识,这些概念或知识无法跨语言或数据类型(例如文化特定的知识)翻译。在这种情况下,科学家可能希望LLM具有某些特定于语言的处理机制。

吴说:“您如何尽可能最大地共享,但也允许语言具有某种特定语言的处理机制?可以在未来的模型体系结构上进行探索。”

此外,研究人员可以使用这些见解来改善多语言模型。通常,学会说另一种语言的英语主导模型会失去其英语的某些准确性。他说,更好地了解LLM的语义枢纽可以帮助研究人员防止这种语言干预。

这项研究部分由MIT-IBM Watson AI实验室资助。

相关推荐
友情链接