CD基因组——基因组服务公司
支持文档 CD基因组学的思维方式 探索我们开发的科学文件,包括样本提交指南,原则,应用和遗传技术的生物信息学。欧宝官网app苹果下载
首页/资源/支持文档/基因组研究/全外显子组测序的生物信息学工作流欧宝体育在线欧宝体育官网网址

全外显子组测序的生物信息学工作流欧宝体育在线欧宝体育官网网址

下一代测序技术(NGS)的出现极大地加速了基因组学的研究,它欧宝体育官网网址可以高速生成数百万到数十亿的序列读取。目前,可用的NGS平台包括Illumina、Ion Torrent/Life Technologies、454/Roche、Pacific Bioscience、Nanopore和GenapSys。它们可以产生长度为100-10,000 bp的读数,以较低的成本实现对基因组的充分覆盖。但面对海量的序列数据,我们该如何最好地处理它们呢?而针对这一目的,最合适的计算方法和分析工具又是什么呢?在这篇综述中,我们重点介绍了生物信息学的管道ob 官网

欧宝体育在线全外显子组测欧宝体育官网网址序是一种对外显子组(所有蛋白质编码基因)进行测序的基因组技术。广泛应用于基础研究和应用研究,特别是在孟德尔病的研究中。大家可以阅读文章全外显子组测序的原理和工作流程欧宝体育在线欧宝体育官网网址,了解WES的更多信息。WES分析的典型工作流包括以下步骤:原始数据质量控制、预处理、序列对齐、对齐后处理、变量调用、变量注释、变量过滤和优先级排序。下面将对这些步骤进行讨论。

全外显子组测序的生物信息学工作流欧宝体育在线欧宝体育官网网址

图1所示。WES数据分析的总体框架(Bao。2014)。

原始数据质量控制

序列数据一般有两种常见的标准格式:FASTQ和FASTA。FASTQ文件可以存储phred - scaling的基础质量分数,以更好地度量序列质量。因此,它被广泛接受为NGS原始数据的标准格式。目前已经开发了多种工具来评估NGS原始数据的质量,如FastQC、FastQ Screen、FASTX-Toolkit和NGS QC Toolkit。

阅读质量控制参数:

  1. 基础质量评分分布
  2. 序列质量评分分布
  3. 读取长度分布
  4. GC含量分布
  5. 重复序列水平
  6. PCR扩增的问题
  7. 偏置的k-mers
  8. 比例的序列

数据预处理

有了一份全面的读QC报告(一般涉及上述参数),研究人员就可以确定是否需要进行数据预处理。预处理步骤一般包括3 '端适配器移除、低质量或冗余读过滤以及不需要的序列修剪。可以使用几种工具进行数据预处理,如Cutadapt和Trimmomatic。PRINSEQ和QC3可以同时实现质量控制和预处理。

序列比对

有用于镜头读取映射的算法,包括Burrows-Wheeler transform (BWT)和Smith-Waterman (SW)算法。Bowtie2和BWA是两种流行的短读对齐工具,实现了BWT (Burrows-Wheeler Transformation)算法。MOSAIK、SHRiMP2和Novoalign是重要的短读对齐工具,它们是提高精度的SW算法的实现。此外,多线程和MPI实现允许显著减少运行时。在上面提到的所有工具中,Bowtie2在运行时间快、灵敏度高、精度高等方面表现突出。

Post-alignment处理

在读取映射后,对对齐的读取进行后处理,以去除不需要的读取或对齐,如超过规定大小的读取和PCR重复。Picard markduplates和SAMtools等工具可以将PCR副本与真实的DNA材料区分开来。随后,第二步是通过indel重新排列来提高gap对齐的质量。一些对齐器(如Novoalign)和变体调用器(如GATK HaplotypeCaller)涉及到indel对齐改进。在indel重新排列之后,建议使用BQSR(来自GATK套件的BaseRecalibrator)在变量调用之前提高基本质量分数的准确性。

变量调用

变异分析对于检测不同类型的基因组变异非常重要,例如snp、snv、indels、cnv和更大的sv,特别是在癌症研究中。区分体细胞和种系变异是至关重要的。体细胞变异只存在于体细胞中,并且是组织特异性的,而种系变异是存在于生殖细胞中的遗传突变,与患者的家族史有关。变异调用用于识别外显子组样本中的SNP和短内链。常见的变异调用工具如表1所示。一些研究对这些变体调用者进行了评估。刘。推荐GATK, Bao等人推荐Novoalign和FreeBayes的组合。

表1。常见的变种调用工具。

变量调用 工具
生殖系变异打电话 GATK, SAMtools, FreeBayes, Atlas2
体细胞变异检测 GATK, SAMtools mpileup, Issac变体调用者,deepSNV, Strelka, MutationSeq, MutTect, QuadGT, Seurat, Shimmer, SolSNP, jointSNVMix, SomaticSniper, VarScan2, Virmid

变异注释

变异被识别后,需要对其进行注释,以便更好地理解疾病的发病机制。变异注释一般涉及基因组坐标、基因位置、突变类型等信息。许多研究关注外显子组中的非同义snv和indels,它们占孟德尔疾病中已知致病突变的85%,以及复杂疾病中的大量突变。

除了基本的注释,还有许多数据库可以提供关于变体的附加信息。ANNOVAR是一个功能强大的工具,它结合了4000多个用于变体注释的公共数据库,如dbSNP、1000 Genomes和NCI-60人类肿瘤细胞系面板外显子组测序数据。欧宝体育官网网址该工具可用于小等位基因频率(MAF)预测、有害预测、突变位点的保守性指示、疾病变异的实验证据,以及来自GERP、PolyPhen和其他程序的预测评分。其他常用数据库包括OncoMD、OMIM、SNPedia、1000基因组、bdSNP和个人基因组变异。

变体过滤和优先排序

WES可以生成数以千计的候选变量。可以通过变量优先化来减少这个数量,生成一个简短但优先的候选突变列表,用于进一步的实验验证。变异优先化涉及三个步骤:1)去除不太可靠的变异调用;2)耗尽常见的变异(因为假设罕见的变异更容易引起疾病);3)使用基于发现和基于假设的方法,对与疾病相关的变异进行优先排序。可用于变异筛选和优先排序的工具包括VAAST2、VarSifer、KGGseq、PLINK/SEQ、SPRING、GUI工具、Gnome和匠心变异分析。

结论

在未来几年内,全外显子组测序可能被采用为疾病治欧宝体育在线疗的常规临床程序。欧宝体育官网网址而且,许多医疗机构已经利用WES等NGS技术提供了基因检测。下一个挑战将是数百万基因组变体的数据管理,以及基因组变体、临床记录和患者信息的整合。

如果您对ob 官网 所提供的CD基因组学,请随时与我们联系。我们提供完整的全外显子组测序服务欧宝体育在线包,包括样品欧宝体育官网网址标准化、外显子组捕获、文库建设、高通量测序、原始数据质量控制、生物信息学分析。我们可以根据您的研究兴趣定制这个管道。

参考文献:

  1. Bao R, Huang L, Andrade J,。综述了目前全外显子组测序生物信息学分析的方法、应用和数欧宝官网app苹果下载据管理。欧宝体育在线欧宝体育官网网址癌症信息学, 2014, 13: cin。S13779。
  2. Meena N, Mathur P, Medicherla K M,。全外显子组测序的生物信息学管道:从原始数据到下游分析的处理和欧宝体育在线步骤概述。欧宝体育官网网址bioRxiv, 2017: 201145。
  3. Xu H, DiCarlo J, Satya RV, Peng Q, Wang Y.扩增子和全外显子组序列数据中体细胞突变调用方法的比较。BMC基因组学。2014; 15:244。
*仅供研究使用。不用于诊断程序。
与我们的科学家对话

你想讨论什么?

我们的对话对象是谁?

验证码

*为必填项。

从CD Genomics获取前沿科学信息,每月直接发送到您的收件箱。

订阅我们的通讯
CD基因组——基因组服务公司
欧宝娱乐平台正规安全吗


服务

Baidu