摘要:研究人员开发了新的AI模型,可以极大地提高蛋白质科学中的准确性和发现。可能,这些模型将帮助医学科学克服当前的挑战,例如个性化医学,药物发现和诊断。...
研究人员开发了新的AI模型,可以极大地提高蛋白质科学中的准确性和发现。可能,这些模型将帮助医学科学克服当前的挑战,例如个性化医学,药物发现和诊断。
在广泛使用的AI工具之后,大多数技术和自然科学领域都在迅速发展。在生物技术中尤其如此,在生物技术中,AI在药物发现,精密医学,基因编辑,粮食安全和许多其他研究领域的功能突破进行了建模。
一个子场是蛋白质组学 - 大规模蛋白质的研究 - 在数据库中收集了大量蛋白质数据,可以将样品进行比较。这些数据库使科学家能够辨别样品中存在哪些蛋白质(从而进行微生物)。它们允许医生诊断疾病,监测治疗的有效性或识别患者样本中存在的病原体。
DTU生物工程副教授兼通讯作者蒂莫西·帕特里克·詹金斯(Timothy Patrick Jenkins)说,尽管这些工具非常有用和有效,但它们可以做到的限制。
“首先,没有数据库包括所有内容,因此您需要知道哪些数据库与您的特定需求有关。那么,深入搜索非常耗时,需要大量的计算机功能。最后,几乎不可能识别尚未注册的蛋白质。”
因此,一些小组研究了所谓的'从头开始测序算法的测序可以提高准确性并随着数据库大小的增加而降低计算成本。尽管如此,据DTU,荷兰代尔夫特大学和英国AI公司Instadeep的Jenkins及其同事称,他们的表现仍然“令人难以置信”。
超过最新的
在A中,他们提出了两个新型的AI模型,以帮助研究人员,医生和商业实体在大量数据中准确找到必要的信息。这些称为Instanovo和Instanovo+,可以通过Instadeep网站向研究人员使用(请参阅Fact Box)。
“一起,我们的模型超过了最新的模型,并且比当前可用的工具要精确得多。此外,正如我们在本文中所显示的那样,我们的模型并非特定于特定的研究领域。相反,这些工具可以推动涉及蛋白质组学的所有领域的重大进步,” Instadeep和Co-First作者的研究工程师Kevin Michael Eloff说,”涉及蛋白质组织。
为了评估其模型的实用性,研究人员已经培训并测试了他们在主要感兴趣领域内的几个特定任务。
对静脉腿溃疡患者的伤口液进行了一项研究。由于众所周知,静脉腿溃疡很难治疗并且经常变得慢性,因此知道存在类似细菌(例如细菌)的微生物对治疗至关重要。这些模型可以映射到数据库搜索的十倍序列,其中包括大肠杆菌和铜绿假单胞菌 - 后者是一种多药耐药细菌。
另一个用例是在细胞表面显示的小蛋白质(称为肽)上进行的。这些有助于免疫系统识别感染和癌症等疾病。 Instanovo模型确定了数千种使用传统方法未发现的新肽。在赋予免疫系统能力的个性化癌症治疗中 - 这些肽都是潜在的攻击点。
"In combination, our tests of the model on complex cases, where, for example, unknown proteins are present, or where we have no prior knowledge of the organisms involved, show that they are suitable to improve our understanding significantly. That this bodes well for biomedicine is a given, since it can directly improve identification of our microbiome, as well as improve our efforts within personalised medicine and cancer immunology," says Konstantinos Kalogeropoulos, DTU生物工程的联合首先作者兼助理教授。
本文提供了六个其他案例,这些案例证明了这些模型如何改善治疗测序,发现新型肽,检测未报告的生物并显着增强了蛋白质组学的搜索。蒂莫西·帕特里克·詹金斯(Timothy Patrick Jenkins)说,其结果的含义远远超出了医学科学的范围:
"Looking at it from a purely technical, scientific perspective, it is also true that with these tools, we can improve our understanding of the biological world as a whole, not only in terms of healthcare but also in industry and academia. Within every field using proteomics -- be it plant science, veterinary science, industrial biotech, environmental monitoring, or archaeology -- we can gain insights into protein landscapes that have been inaccessible until now."
事实
Instanovo和Instanovo+是什么?
Instanovo是一个基于变压器的模型从头开始肽测序。丹麦技术大学(DTU)与生物技术和生物医学系之间的合作开发,将碎片离子峰从质谱数据转化为具有前所未有的精度的肽序列。
与依靠预先存在数据库的传统方法不同,Instanovo识别了以前从未有过记录的肽 - 扩大了蛋白质组学发现的景观。
Instanovo模型的一个关键创新是Instanovo+,这是一种基于扩散的迭代改进模型,该模型通过模仿研究人员如何手动完善肽预测来增强序列准确性。 Instanovo+从初始序列开始 - 源自Instanovo或随机生成 - 并逐步改进它。
当与Instanovo配对时,Instanovo+显着降低了错误的发现率(FDR)并提高了序列精度,不仅是通过完善预测,而且通过探索更广泛的潜在肽序列。
与诸如Instanovo等自回旋模型或其他模型不同,这些模型一次预测肽序列一次氨基酸,Instanovo+可以整体处理整个序列,从而实现更高的准确性和更高的检测率。
Instanovo和Instanovo+增强从头开始肽测序,在精度和探索之间达到平衡,以加速生物学发现。
资料来源:Instadeep。