摘要:就像Chatgpt理解人类语言一样,由计算生物学家开发的一种新的AI模型捕获了细胞的语言,以准确预测其活动。...
就像Chatgpt了解人类语言一样,由哥伦比亚计算生物学家开发的一种新的AI模型捕获了细胞的语言,以准确预测其活动。
使用新的人工智能方法,哥伦比亚大学瓦格洛斯大学医师和外科医生学院的研究人员可以准确预测任何人类细胞中基因的活性,从本质上揭示了细胞的内部机制。该系统,在当前的期刊中描述自然,可以改变科学家的工作方式,以理解从癌症到遗传疾病的一切。
系统生物学教授,新论文的高级作者劳尔·拉巴丹(Raul Rabadan)表示:“可预测的可概括计算模型可以快速准确地揭示生物学过程。这些方法可以有效地进行大规模的计算实验,促进和指导传统的实验方法。”
生物学的传统研究方法擅长揭示细胞如何执行其工作或对干扰的反应。但是他们无法对细胞的工作方式或细胞对变化的反应进行预测,例如致癌突变。
拉巴丹说:“具有准确预测细胞活动的能力将改变我们对基本生物过程的理解。” “这将使将看似随机过程描述的科学从生物学变成可以预测控制细胞行为的基本系统的生物学。”
近年来,来自细胞和更强大的AI模型的大量数据的积累开始将生物学转化为更具预测性的科学。 2024年诺贝尔化学奖获得了研究人员的开创性工作,以使用AI来预测蛋白质结构。但是,使用AI方法来预测细胞内基因和蛋白质的活性已被证明更加困难。
新的AI方法可以预测任何细胞中的基因表达
在这项新研究中,拉巴丹和他的同事试图使用AI来预测哪些基因在特定细胞中有效。有关基因表达的此类信息可以告诉研究人员细胞的身份以及细胞如何执行其功能。
拉巴丹说:“先前的模型已经接受过针对特定细胞类型的数据的培训,通常是癌细胞系或其他与正常细胞几乎没有相似之处的东西。”拉巴丹实验室的研究生决定采用另一种方法,训练从正常人体组织获得的数百万个细胞的基因表达数据训练机器学习模型。输入由基因组序列和数据组成,显示了基因组的哪些部分可访问和表达。
总体方法类似于Chatgpt和其他流行的“基础”模型的工作方式。这些系统使用一组培训数据来识别基本规则,语言语法,然后将这些推论规则应用于新情况。拉巴丹说:“这是完全相同的事情:我们在许多不同的蜂窝状态下学习了语法,然后我们进入了特定的状态 - 它可以是一种患病或可以是正常的细胞类型 - 我们可以尝试看看我们从这些信息中预测模式的能力。”
Fu和Rabadan很快就招募了一组合作者,其中包括联合首先作者Alejandro Buendia,他现在是一名前斯坦福大学的博士生,以前是Rabadan实验室的学生,以及Carnegie Mellon的Shentong Mo,培训并测试新模型。
在对超过130万个人类细胞的数据进行培训后,该系统变得足够准确,可以预测从未见过的细胞类型中的基因表达,从而产生与实验数据紧密达成共识的结果。
新的AI方法揭示了小儿癌的驱动因素
接下来,调查人员在要求其发现仍然隐藏的病态细胞生物学时,展示了其AI系统的力量,在这种情况下,是一种遗传的小儿白血病。
拉巴丹说:“这些孩子继承了一个被突变的基因,目前尚不清楚这些突变在做什么。”拉巴丹还在哥伦比亚的赫伯特·赫伯特·欧文(Herbert Irving)综合癌症中心共同指导了癌症基因组学和表观基因组学研究计划。
研究人员使用AI,预测突变破坏了决定白血病细胞命运的两个不同转录因子之间的相互作用。实验室实验证实了AI的预测。了解这些突变的效果会发现驱动该疾病的特定机制。
AI可以在基因组中揭示“暗物质”
新的计算方法还应允许研究人员开始探索基因组“暗物质”的作用,这是从宇宙学中借用的术语,它是指绝大多数基因组(未编码已知基因的基因组)在癌症和其他疾病中。
拉巴丹说:“在癌症患者中发现的绝大多数突变都处于所谓的基因组黑暗区域。这些突变不会影响蛋白质的功能,并且主要没有探索。
拉巴丹已经与哥伦比亚和其他大学的研究人员合作,探索从大脑到血液癌的不同癌症,学习正常细胞中调节的语法以及细胞在癌症发展过程中的变化。
这项工作还开辟了新的途径,以了解癌症以外的许多疾病,并可能识别出新疗法的靶标。通过向计算机模型展示新的突变,研究人员现在可以获得有关这些突变如何影响细胞的深刻见解和预测。
拉巴丹在人工智能生物学方面的最新进展之后,将这项工作视为主要趋势的一部分:“这确实是生物学的新时代,非常令人兴奋;将生物学转变为一种预测科学。”