人脑中大约有75种不同类型的细胞。是什么使它们各不相同?贝勒医学院的研究人员开发了一套新的计算工具来帮助回答这个问题。尽管来自同一生物的不同细胞类型携带相同的DNA,但它们的外观和功能却有所不同,因为每种基因中的一组不同的基因都是有活性的或无活性的。细胞通过使用表观遗传机制(例如DNA甲基化)打开或关闭基因,这涉及用甲基化学基团标记基因。

为了更好地了解表观遗传调控的工作原理,研究人员研究了整个基因组数据集中的DNA甲基化信号。这些数据集包含构成细胞群体中DNA的构件的序列。但是,当要研究的组织(如大脑)由许多不同的细胞类型组成时,现有的分析方法无法区分由这些不同的细胞类型产生的甲基化信号。

现在,贝勒公司开发了一套新的计算方法,使研究人员可以识别复杂细胞混合物中特定于细胞类型的甲基化模式-分子条形码。这些新的计算工具已发表在《基因组生物学》杂志上,可以免费下载,可以应用于任何物种的现有全基因组甲基化数据集。这为提高我们对DNA甲基化如何调节细胞功能的理解开辟了令人兴奋的新可能性。

识别细胞类型特异性分子条形码

“目前,研究DNA甲基化的金标准方法是全基因组亚硫酸氢盐测序(WGBS),这是一种下一代测序技术,可确定整个基因组中每个胞嘧啶(DNA的组成部分之一)的DNA甲基化。”通讯作者克里斯蒂安·科法(Cristian Coarfa)博士,分子和细胞生物学副教授,隶属于贝勒精密环境卫生中心。

WGBS研究通常报告每个胞嘧啶的平均甲基化水平。但是,在由多种细胞类型组成的组织中,该平均值反映了混合物中每种细胞类型的甲基化水平的混合,从而掩盖了细胞类型的特异性差异。

“推动当前研究的关键见解是,WGBS数据中的DNA序列“读取”是源自组织不同细胞的DNA分子的直接后代。我们推测,在组织测序读取的甲基化“模式”中包含的信息有关读物起源的细胞类型的信息,”作者之一,贝勒和美国德克萨斯州儿童医院的USDA / ARS儿童营养研究中心的儿科学教授罗伯特·沃特兰德博士说。“为了测试这一点,我们开发了可在大量WGBS数据中识别这些特定于细胞类型的甲基化模式的软件。该软件称为基于簇的CpG甲基化分析(CluBCpG)。”

作为一项验证,研究人员使用CluBCpG分析了来自两种人类免疫细胞(B细胞和单核细胞)的WGBS数据集。他们能够在每种细胞类型中识别超过100,000个独特的分子条形码。然后,他们将他们的方法应用于来自完全不同的人的这两种细胞类型的另一个WGBS数据集的读取混合。

“通过对新数据集中这些分子条形码的出现进行计数,CluBCpG使我们能够精确确定每种混合物中B细胞和单核细胞的百分比,” Waterland实验室前博士后C. Anthony Scott博士说。本文的第一作者。“我们还表明,这些细胞类型特异性信号与不同类型的人和小鼠脑细胞以及血细胞中的细胞功能有关,并且它们甚至可以预测表达哪些基因。”

在过去的十年中,科学家生成了数以千计的WGBS数据集,耗资数百万美元,但无法欣赏其中的许多可用信息。贝勒大学分子与人类遗传学教授沃特兰说:“这有点像在交响乐中戴上消除噪音的耳机。”“现在,研究人员首次可以“调入” WGBS数据的全部丰富性和复杂性。”

增强现有数据集的信息内容

CluBCpG软件与第二个开发一起工作,第二个开发是一个精密的机器学习软件包,称为精确的甲基化读级插补(PReLIM)。该软件“填充”缺少的信息,这些信息覆盖了区域中某些站点的测序读数,从而使现有WGBS数据集的信息含量增加了50%到100%。

“ PReLIM从每个WGBS数据集中的数亿个读数中进行学习,以预测各个序列读数中缺失位点的甲基化状态,”沃特兰实验室的前学生,论文的第一作者之一Jack D. Duryea说。“我们证明PReLIM的预测在95%的时间内都是正确的。”

由于WGBS数据集的生成成本成千上万美元,因此获得50%至100%的数据(无需额外费用)是一件大事。

研究人员预计这些新的计算技术将被用于研究正常细胞以及疾病中的甲基化差异。

“例如,这些方法将在旨在确定健康的大脑和患有疾病的人的甲基化差异的研究中提供更好的分辨率。例如,我们也许能够确定与疾病相关的表观遗传变化仅在一种特定类型中发生脑细胞,这将是了解疾病的重要一步。”

这项工作的其他贡献者包括贝勒医学院的Harry MacKay,Maria S. Baker,Eleonora Laritsky和Chathura J. Gunasekara。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。