摘要:研究人员开发了Thyloframe,这是一种机器学习工具,该工具使用人工智能来解释遗传数据中的祖先多样性。...
佛罗里达大学的研究人员正在解决医学遗传研究中的关键差距 - 确保它更好地代表和受益于各种背景的人。
他们的工作由计算机与信息科学与工程系的助理教授Kiley Graim博士领导,重点是通过解决遗传数据中的“祖先偏见”来改善人类健康,这是大多数研究基于单个祖先的数据而引起的问题。格雷姆说,这种偏见限制了精密医学的进步,并在疾病治疗和预防方面留下了全球人口的大部分人群。
为了解决这个问题,团队开发了Phyloframe,这是一种机器学习工具,该工具使用人工智能来解释遗传数据中的祖先多样性。在美国国立卫生研究院的资金支持下,目标是改善疾病的预测,诊断和治疗方式,无论其血统如何。周一发表的一篇描述类似型方法的论文及其如何显示精密医学结果的明显改善自然通讯。
格雷姆(Graim)专注于基因组数据中祖先偏见的灵感来自与医生的对话,他对研究对他多样化的患者人群的相关性感到沮丧。这次相遇使她探索了AI如何帮助弥合遗传研究中的差距。
格雷姆说:“我心想,'我可以解决这个问题。'”他的研究集中在机器学习和精确医学以及接受过人口基因组学培训的过程中。 “如果我们的培训数据与我们的现实世界数据不符,我们可以使用机器学习来处理该数据。它们并不完美,但是它们可以做很多事情来解决这个问题。”
通过利用人群基因组数据库GNOMAD的数据,Phyloframe将健康人类基因组的大量数据库与用于训练精确医学模型的疾病的较小数据集相结合。它创建的模型可以更好地处理各种遗传背景。例如,它可以预测乳腺癌等疾病的亚型之间的差异,并为每个患者提供最佳治疗,而不论患者的血统如何。
处理大量数据并不是很小的壮举。该团队使用UF的嘻哈剂,UF的嘻哈剂是该国最强大的超级计算机之一,分析了数百万人的基因组信息。对于每个人,这意味着处理30亿对DNA。
格拉姆说:“我认为它的运作不佳。”她的博士生莱斯利·史密斯(Leslie Smith)为这项研究做出了重大贡献。 “最初是一个小型项目,使用一个简单的模型来证明纳入人群基因组数据的影响已经演变为确保资金以开发更复杂的模型并完善人口的定义方式。”
设定门类的是它通过考虑与祖先相关的遗传差异来确保预测在整个人群中保持准确的能力。这是至关重要的,因为大多数当前模型都是使用并不完全代表世界人口的数据构建的。现有数据的大部分来自研究医院和信任医疗保健系统的患者。这意味着在小城镇或不信任医疗系统的人群中经常被遗漏,因此很难开发适合所有人的治疗方法。
她还估计,测序样本中有97%来自欧洲血统的人,这在很大程度上是由于国家和州一级的资金和优先事项,但也是由于社会经济因素造成的,这些因素在不同的水平上滚雪球 - 保险会影响人们是否受到治疗,这会影响他们的可能性。
她说:“其他一些国家,尤其是中国和日本,最近一直在试图缩小这一差距,因此,这些国家的数据比以前有更多的数据,但仍然没有欧洲数据。” “较贫穷的人口通常被完全排除在外。”
因此,培训数据的多样性至关重要。
她说:“我们希望这些模型适用于任何患者,而不仅仅是我们研究中的患者。” “拥有多样化的培训数据也可以使欧洲人更好地模型。拥有人群基因组学数据有助于防止模型过度拟合,这意味着它们将为包括欧洲人在内的每个人(包括欧洲人)更好地工作。”
Graim认为,诸如Phyloframe之类的工具最终将在临床环境中使用,以取代传统模型,以根据个人的基因组成制定针对个人量身定制的治疗计划。该团队的下一步包括完善类似物和将其应用程序扩展到更多疾病。
她说:“我的梦想是通过这种机器学习方法来帮助推进精确医学,以便人们可以尽早诊断出来,并以对它们有用的功能和最少的副作用来治疗。” “我们要在正确的时间为合适的人提供正确的待遇。”
格雷姆(Graim)的项目获得了UF研究学院AI2 DATATHON GRANT奖的资金,该奖项旨在帮助研究人员和临床医生使用AI工具来改善人类健康。