摘要:我们的身体由约750亿个细胞组成。但是,每个单个细胞都能执行什么功能?健康人的细胞与患有疾病的人的细胞有多大不同?要得出结论,必须分析和解释大量数据。为此,应用机器学习方法。现在,研究人员已经测试了自我监督的学习,作为测试2000万个或更多细胞的有前途的方法。...
近年来,研究人员在单细胞技术方面取得了长足的进步。这使得可以根据单个细胞进行研究,并仅仅确定单个细胞类型的各种功能。可以使用该分析与健康细胞进行比较,以找出吸烟,肺癌或共同感染如何改变肺中的单个细胞结构。
同时,分析正在生成越来越多的数据。研究人员打算采用机器学习方法来支持重新解释现有数据集的过程,从模式中得出结论性的陈述,并将结果应用于其他领域。
自我监督的学习是一种新方法
Fabian Theis担任TUM生物系统数学建模主席。在他的团队中,他调查了自我监督的学习是否比其他方法更适合大量数据量的分析。该研究最近发表在《自然机器智能》中。这种机器学习形式可与未标记的数据一起使用。不提前需要分类的样本数据。这意味着无需事先将数据预先分配给某些组。未标记的数据大量可用,并允许强大的数据量表示。
自我监督的学习是基于两种方法。顾名思义,在蒙版学习中 - 输入数据的一部分被掩盖,并且对模型进行了训练以能够重建缺失的元素。此外,研究人员还采用对比度学习,其中模型学会结合相似的数据和分开不同的数据。
该团队使用了两种自我监督学习方法来测试超过2000万个单个细胞,并将其与经典学习方法的结果进行了比较。在评估不同方法的评估中,研究人员专注于预测细胞类型和基因表达重建等任务。
虚拟细胞开发的前景
该研究的结果表明,自我监督的学习可以提高绩效,尤其是通过转移任务,也就是说,在分析较大辅助数据集中的见解的较小数据集时。此外,零击细胞预测的结果 - 换句话说,在没有预训练的情况下执行的任务也很有希望。掩盖和对比度学习之间的比较表明,蒙版学习更适合具有大型单细胞数据集的应用。
研究人员正在使用数据来开发虚拟细胞。这些是全面的计算机模型,反映了不同数据集中单元的多样性。例如,这些模型可用于分析疾病所见的细胞变化。该研究的结果为如何更有效地培训了这种模型提供了宝贵的见解。