介绍
DNA甲基化是表观遗传学的重要组成部分,在维持正常细胞功能、遗传印记、胚胎发育和人类肿瘤发生等方面发挥着重要作用。亚硫酸盐全基因组测序(WGBS)欧宝体育官网网址将未甲基化的胞嘧啶(C)转化为胸腺嘧啶(T)与亚硫酸氢盐处理基因组DNA。随后,对处理后的DNA进行全基因组重测序,并与参考基因组进欧宝体育官网网址行比较,从基因组水平实现单碱基分辨率和高精度甲基化水平分析。WGBS广泛应用于细胞分化、组织发育、动植物育种、人类健康和疾病的研究。
WGBS的数据分析管道
图1所示。WGBS的工作流程和基本生物信息学分析。
原始读取的质量控制是确保数据高质量和适合进一步分析的关键步骤。在文库构建过程中,原始数据可能被PCR引物和二聚体污染,或者在测序过程中被低质量碱基掺杂。因此,需要移除适配器和读取修剪/过滤,以便从后续分析中移除低质量的基础。欧宝体育官网网址
许多程序,如FastQC、BIGpre和PIQA,可以为质量控制提供不同的分析。其中,FastQC是最受认可的质量控制工具。它处理原始读取的许多方面,并生成一个html报告,总结执行的每个质量检查。通常,结果涵盖了原始读取的不同质量方面,如读取总数、读取质量分布、GC内容分布、一般序列质量等。
接下来,读取应该与参考基因组对齐。传统的比对工具,如BWA、Bowtie或Maq是不合适的,因为标准参考基因组和亚硫酸氢盐处理的DNA读数之间存在差异。有许多可用的工具,如Bismark、BS-Seeker2、Bison、Last或B-SOLANA。Bismark代表的比对工具使用现有的短读比对器,并在内部处理WGBS数据分析特有的要求,在测序读取和基因组参考中,在绘图之前将C转换为T。其他方法,如Last,使用可以容忍C-T不匹配的特定得分矩阵。
PCR重复序列可以在与参考基因组对齐后通过计算确定,因为它们错误地扩大了基因组覆盖范围,并且在进一步分析中会出现假阳性错误。一般来说,我们解决PCR偏差的方法是删除与参考基因组同一条链上相同位置对齐的读取。可以使用对齐工具(如Bismark)执行甲基化调用,Bismark提供BAM文件以及与甲基化调用相关的其他度量和文件。
亚硫酸氢盐处理过程中可能发生不完全转化和DNA降解,即未甲基化的Cs并不完全转化为Ts。因此,在进行比对和甲基化调用后,仍需进行质量控制,以消除假阳性错误。有两种方法来校准转化率;一种是使用非cpg甲基化的百分比,另一种是使用未甲基化的Cs添加spike-in序列并计算Ts计数。
表1。DMR呼叫软件(Condon等.2018)。
程序 | DMR识别 | 处决 |
挑衅的 | 加权韦尔奇扩张 | 二进制 |
BSmooth | 二项检验的局部似然平滑 | R |
methylKit | 费雪的精确检验或逻辑回归与瓦片 | R |
MethylSig | beta-binomial | R |
Metilene | P-贝塔二项式值 | 二进制 |
摩押 | beta-binomial | 二进制 |
RADMeth | 贝塔二项回归 | 二进制 |
WGBS的生物信息学分析和可视化包括甲基化水平和密度分析等基础数据分析、基序分析和共表达网络分析等高级数据分析。
差异甲基化分析的目的是发现特定组间的差异甲基化区域(DMR)。DMS (differentially methylated CpG site)是指不同样品间甲基化修饰水平显著不同的胞嘧啶位点。它反映了单碱基分辨率下样本间甲基化修饰的差异,是研究甲基化调控基因表达的基本单位。
样品中甲基化动力学的分析也很重要。例如,甲基化谱的降低通常精确定位调控区域,许多基因体区域广泛甲基化和cpg贫乏。这些观察结果可以描述基因的结构和功能。甲基化状态(包括低甲基化区域、完全甲基化区域和未甲基化区域)可以通过使用计算方法对甲基组进行分割来识别,如MethylSeekR和MethPipe。
DMR/DMS和片段通常需要用基因组注释数据库从生物学角度进行解释。有多种工具可以生成这样的注释。例如,Bioconductor package genome可以用来注释DMR/DMS,并整合甲基化比例。另一个类似的封装CHIPpeakAnno,不仅用于ChIP-seq峰注释,还在一定程度上用于DMR/DMC注释。
聚类是指根据相似性将对象分组成簇。聚类分析对识别疾病的分子亚型很重要。主成分分析(PCA)是检测不同处理或不同发育阶段甲基化数据模式的常用方法,可以解释不同处理甲基化模式的变化。主成分分析也可以检测批效应。另一种常用的聚类分析方法是层次聚类。HumMeth27QCReport和methylkit等工具提供了使用规范化的PCA和层次聚类选项M-价值观。
根据每个样品的甲基化数据,进行聚类分析和富集分析,分析样品之间的相似性。它通常包括GO富集分析和KEGG途径分析,都使用DAVID web服务器。
围棋分析. 基因本体(GO)是一个国际标准的基因功能分类系统。对相关基因进行GO富集分析可以探索DMR调控基因的生物学功能、细胞组成和生物学过程。
KEGG途径分析。KEGG途径显著富集分析可以确定DMR调节基因中最重要的生化代谢途径和信号转导途径。
在CD Genomics,我们致力于提供可靠的表观基因组学测序欧宝体育官网网址服务,包括EpiTYPER DNA甲基化分析,亚硫酸氢盐靶向测序欧宝体育官网网址,还原亚硫酸氢盐测序(RRBS)欧宝体育官网网址,亚硫酸氢盐全基因组测序欧宝体育官网网址,MeDIP测欧宝体育官网网址序,ChIP-seq,甲基拉德序列。如果您对我们的服务感兴趣,请随时与我们联系。
引用:
从CD Genomics获取前沿科学信息,每个月直接发送到您的收件箱。