CD基因组学基因组学服务公司
支持文件 CD基因组学的思维方式 探索我们已经开发的科学文件,包括样本提交指南、原则、应用和遗传技术的生物信息学。欧宝官网app苹果下载
/资源/支持文件/基因组研究/全基因组测序生物信息学工作流欧宝体育官网网址

全基因组测序的生物信息学工作流欧宝体育官网网址

全基因组测序(WGS)欧宝体育官网网址有能力利用最先进的基因测序技术,极大地增进基因组知识和了解生命的奥秘。欧宝体育官网网址WGS可以用于变体调用、基因组注释、系统发育分析、参考基因组构建等。WGS试图覆盖整个基因组,但实际上覆盖了95%的基因组,在对着丝粒和端粒等区域进行测序方面存在技术上的困难。欧宝体育官网网址WGS面临的另一个挑战是数据管理。随着更大的数据集变得更容易获取和负担得起,计算分析将成为速度限制因素,而不是测序技术。欧宝体育官网网址在这里,我们将讨论检测WGS基因变异的生物信息学工作流,以帮助您度过难关。

WGS的生物信息学工作流程与全外显子组测序相似。欧宝体育在线欧宝体育官网网址你可以看看我们的文章全外显子组测序的生物信息学工作流程欧宝体育在线欧宝体育官网网址. WGS的生物信息学工作流程分为以下步骤:(1)原始读取质量控制;(2) 数据预处理;(3) 对齐;(4) 变异呼叫;(5)基因组组装;(6)基因组注释;(7)基于您的研究兴趣的其他高级分析,如系统发育分析。

全基因组测序的生物信息学工作流欧宝体育官网网址图1所示。全基因组测序的生物信息学工作流。欧宝体育官网网址

原始读取QC和预处理

原始文件(fastq)需要从低质量的读取/序列和技术序列(如适配器序列)中删除。这个过程对准确可靠的变化检测非常重要。FastQC (http://www.bioinformatics.babraham.ac.uk/projects/fastq)是一个强大的原始读QC工具,生成统计数据结果,包括基本统计,序列质量,质量分数,序列内容,GC内容,序列长度分布,过度表示序列,序列重复水平图,适配器内容,和k-mer内容。工具如Fastx_trimmer和cutadapt可以用于读取修剪。

对齐

需要确定参考基因组。Mash使我们能够将生成的测序读数与NCBI RefSeq基因组的参考集进行比较(https://www.ncbi.nlm.ni欧宝体育官网网址h.gov/refseq)确定遗传距离和亲缘关系。下一步是将质量控制读数映射到参考基因组。Burrows-Wheeler对准器(BWA)和Bowtie2是两种流行的短读对准算法。BWA和Bowtie2的输出是称为SAM的标准序列比对/映射格式,这有助于执行以下步骤。或者,爆炸(http://blast.ncbi.nlm.nih.gov/Blast.cgi)广泛用于局部对齐。

表1。用于读取对齐的通用计算程序。

程序 源类型 网站
Bowtie2 开源 http://bowtie-bio.sourceforge.net/bowtie2/index.shtml
密封 开源 http://compbio.case.edu/seal/
SOAP3 开源 http://www.cs.hku.hk/2bwt-tools/soap3/;http://soap.genomics.org.cn/soap3.html
BWA, BWA-SW 开源 http://bio-bwa.sourceforge.net/
Novoalign 市售 http://www.novocra.com/
虾/ SHRiMP2 开源 http://compbio.cs.toronto.edu/shrimp/
MAQ 开源 http://maq.sourceforget.net/
呆滞的 开源 http://www.well.ox.ac.uk/project-stampy/
大羚羊 市售 http://www.illumina.com/
萨鲁曼 开源 http://www.cebitec.uni-bielefeld.de/brf/saruman/saruman.html

变体调用

一旦读数与参考基因组对齐,就可以通过比较样本基因组与参考基因组来识别变体。检测到的变异可能与疾病有关,或者仅仅是非功能性基因组噪音。变异调用格式(VCF)是存储序列变异的标准格式,包括SNP(单核苷酸多态性)、INDEL、结构变异和注释。由于SNV和INDEL的假阳性和假阴性识别率较高,变体调用可能会很复杂。表2中的软件包有助于改进变量调用。

表2。用于变量调用的软件包。

软件包 描述 网站
盖特
  • 多重序列重组
  • 质量分数重新校准
  • SNP基因分型
  • Indel发现和基因分型
http://software.broadinstitute.org/gatk/
SOAPsnp
  • 共识呼叫和SNP检测
  • 计算各基因型的可能性
http://soap.genomics.org.cn/
VarScan/VarScan2
  • 以1%的频率检测变异
  • 在每个位置normalize序列深度
http://genome.wustl.edu/tools/cancer-genomics
阿特拉斯2
  • 来自不同NGS平台的对齐数据的变体调用
http://www.genboree.org/

基因组组装

从头组装是将重叠的序列排列成更长的contigs(更大的连续序列),并将这些contigs排列成scaffold(已测序基因组的框架)的过程。如果有来自相关物种的参考基因组,通常的方法是先生成contigs新创然后将它们与支架组装的参考基因组对齐。另一种方法是“对齐布局共识”算法。该方法首先将读取序列与密切相关的参考基因组进行比对,然后构建重叠群和支架新创

表3。用于不同测序平台的通用汇编程序。欧宝体育官网网址

欧宝体育官网网址测序平台 基因组组装工具
伊洛米娜 天鹅绒(https://www.ebi.ac.uk/ ~ zerbino / /)
黑桃(http://bioinf.Spbau.Ru/spades)
离子激流 米拉(http://www.Chevreux.Org/projects_mira.html)
罗氏454 纽伯勒(http://454.com/contact-us/software-request.asp)
PacBio SMRT SPAdes、HGAP和Celera-MHAP汇编程序

用户可以评估基因组草图装配的质量,或者比较不同方法生成的装配。有各种各样的度量反映了部件的质量。只有连续的接近完整(约90%)的装配被小间隙打断,才能产生成功的基因组注释。

  • 基因组大小.基于c值和k-mer频率的方法都可以推断基因组大小。
  • 装配连续性. N50统计量可用于评估装配连续性,它描述了装配序列长度的一种中值。
  • 精度.转录组数据是验证序列准确性和校正支架的重要资源。比较基因组学方法也可以在检测错误组装和嵌合contigs方面提供指导。

基因组注释

为了充分理解基因组序列,需要使用基因本体论(GO)术语、KEGG通路和表观遗传修饰等生物学相关信息进行注释。注释包括两个阶段:

(1) 计算阶段。计算阶段包括重复掩蔽、编码序列预测(CDS)和基因模型预测。

  • 重复掩蔽。由于重复序列在物种间的保守性较差,因此建议使用RepeatModeler、RepeatExplorer等工具创建特定于物种的重复序列库。
  • 预测的cd。预测cd使用从头算算法。
  • 基因模型预测。蛋白质比对、来自其他物种的同位蛋白提升、EST和RNA-seq数据可以为预测基因模型提供有价值的资源。

(2)注释的阶段。以上提到的所有证据b在开头预测,以及蛋白质-,EST-和rna -比对)然后合成成一个基因注释。此外,自动标注工具,如MAKER和PASA可以集成和权衡证据。如果基因注释有任何错误,WebApollo可以通过视觉界面编辑注释。

一旦通过目视检查评估基因组注释,就可以发布基因组序列和注释草案。为了让其他人改进基因组组装和注释,所有原始数据都应该上传。上传基因组的可用数据库包括ENSEMBL和NCBI。

如果您对我们的基因组学服务感兴趣,请访问我们的网站:www.selfdr.com为更多的信息。我们可以提供全套的基因组测序欧宝体育官网网址包括…在内全基因组测序欧宝体育官网网址ob 官网 目标区域测序欧宝体育官网网址线粒体DNA (mtDNA)测序欧宝体育官网网址,质粒DNA全测序欧宝体育官网网址

参考资料:

  1. 杜尔德-菲尔哈特M P,李M,欧阳C,.下一代全外显子组和基因组测序的计算和生物信息学框架。欧宝体育官网网址科学世界杂志, 2013, 2013。
  2. Ekblom R,Wolf J B W.全基因组测序、组装和注释现场指南。欧宝体育官网网址进化应用欧宝官网app苹果下载, 2014, 7(9): 1026-1042。
  3. Kwong J C, McCallum N, Sintchenko V,.临床和公共卫生微生物学全基欧宝体育官网网址因组测序。病理, 2015, 47(3): 199-210。
  4. Meena N, Mathur P, Medicherla K M,.全外显子组测序的生物信息学管道:从原始数据到下游分析的处理和欧宝体育在线步骤概述。欧宝体育官网网址bioRxiv, 2017: 201145。
  5. Oakeson K F,Wagner J M,Mendenhall M,. 公共卫生实验室全基因组序列数据的生物信息学分析。新发传染病, 2017, 23(9): 1441。
*只供研究用途。不用于诊断程序。
与我们的科学家交谈

你想讨论些什么?

我们要和谁说话?

验证码

*是必填项。

每个月都能从CD Genomics获得最前沿的科学信息,并直接发送到你的收件箱。

订阅我们的时事通讯
CD基因组学基因组学服务公司
欧宝娱乐平台正规安全吗


服务