全基因组测序(WGS)欧宝体育官网网址有能力利用最先进的基因测序技术,极大地增进基因组知识和了解生命的奥秘。欧宝体育官网网址WGS可以用于变体调用、基因组注释、系统发育分析、参考基因组构建等。WGS试图覆盖整个基因组,但实际上覆盖了95%的基因组,在对着丝粒和端粒等区域进行测序方面存在技术上的困难。欧宝体育官网网址WGS面临的另一个挑战是数据管理。随着更大的数据集变得更容易获取和负担得起,计算分析将成为速度限制因素,而不是测序技术。欧宝体育官网网址在这里,我们将讨论检测WGS基因变异的生物信息学工作流,以帮助您度过难关。
WGS的生物信息学工作流程与全外显子组测序相似。欧宝体育在线欧宝体育官网网址你可以看看我们的文章全外显子组测序的生物信息学工作流程欧宝体育在线欧宝体育官网网址. WGS的生物信息学工作流程分为以下步骤:(1)原始读取质量控制;(2) 数据预处理;(3) 对齐;(4) 变异呼叫;(5)基因组组装;(6)基因组注释;(7)基于您的研究兴趣的其他高级分析,如系统发育分析。
图1所示。全基因组测序的生物信息学工作流。欧宝体育官网网址
原始读取QC和预处理
原始文件(fastq)需要从低质量的读取/序列和技术序列(如适配器序列)中删除。这个过程对准确可靠的变化检测非常重要。FastQC (http://www.bioinformatics.babraham.ac.uk/projects/fastq)是一个强大的原始读QC工具,生成统计数据结果,包括基本统计,序列质量,质量分数,序列内容,GC内容,序列长度分布,过度表示序列,序列重复水平图,适配器内容,和k-mer内容。工具如Fastx_trimmer和cutadapt可以用于读取修剪。
对齐
需要确定参考基因组。Mash使我们能够将生成的测序读数与NCBI RefSeq基因组的参考集进行比较(https://www.ncbi.nlm.ni欧宝体育官网网址h.gov/refseq)确定遗传距离和亲缘关系。下一步是将质量控制读数映射到参考基因组。Burrows-Wheeler对准器(BWA)和Bowtie2是两种流行的短读对准算法。BWA和Bowtie2的输出是称为SAM的标准序列比对/映射格式,这有助于执行以下步骤。或者,爆炸(http://blast.ncbi.nlm.nih.gov/Blast.cgi)广泛用于局部对齐。
表1。用于读取对齐的通用计算程序。
程序 | 源类型 | 网站 |
Bowtie2 | 开源 | http://bowtie-bio.sourceforge.net/bowtie2/index.shtml |
密封 | 开源 | http://compbio.case.edu/seal/ |
SOAP3 | 开源 | http://www.cs.hku.hk/2bwt-tools/soap3/;http://soap.genomics.org.cn/soap3.html |
BWA, BWA-SW | 开源 | http://bio-bwa.sourceforge.net/ |
Novoalign | 市售 | http://www.novocra.com/ |
虾/ SHRiMP2 | 开源 | http://compbio.cs.toronto.edu/shrimp/ |
MAQ | 开源 | http://maq.sourceforget.net/ |
呆滞的 | 开源 | http://www.well.ox.ac.uk/project-stampy/ |
大羚羊 | 市售 | http://www.illumina.com/ |
萨鲁曼 | 开源 | http://www.cebitec.uni-bielefeld.de/brf/saruman/saruman.html |
变体调用
一旦读数与参考基因组对齐,就可以通过比较样本基因组与参考基因组来识别变体。检测到的变异可能与疾病有关,或者仅仅是非功能性基因组噪音。变异调用格式(VCF)是存储序列变异的标准格式,包括SNP(单核苷酸多态性)、INDEL、结构变异和注释。由于SNV和INDEL的假阳性和假阴性识别率较高,变体调用可能会很复杂。表2中的软件包有助于改进变量调用。
表2。用于变量调用的软件包。
软件包 | 描述 | 网站 |
盖特 |
|
http://software.broadinstitute.org/gatk/ |
SOAPsnp |
|
http://soap.genomics.org.cn/ |
VarScan/VarScan2 |
|
http://genome.wustl.edu/tools/cancer-genomics |
阿特拉斯2 |
|
http://www.genboree.org/ |
基因组组装
从头组装是将重叠的序列排列成更长的contigs(更大的连续序列),并将这些contigs排列成scaffold(已测序基因组的框架)的过程。如果有来自相关物种的参考基因组,通常的方法是先生成contigs新创然后将它们与支架组装的参考基因组对齐。另一种方法是“对齐布局共识”算法。该方法首先将读取序列与密切相关的参考基因组进行比对,然后构建重叠群和支架新创.
表3。用于不同测序平台的通用汇编程序。欧宝体育官网网址
欧宝体育官网网址测序平台 | 基因组组装工具 |
伊洛米娜 | 天鹅绒(https://www.ebi.ac.uk/ ~ zerbino / /) 黑桃(http://bioinf.Spbau.Ru/spades) |
离子激流 | 米拉(http://www.Chevreux.Org/projects_mira.html) |
罗氏454 | 纽伯勒(http://454.com/contact-us/software-request.asp) |
PacBio SMRT | SPAdes、HGAP和Celera-MHAP汇编程序 |
用户可以评估基因组草图装配的质量,或者比较不同方法生成的装配。有各种各样的度量反映了部件的质量。只有连续的接近完整(约90%)的装配被小间隙打断,才能产生成功的基因组注释。
基因组注释
为了充分理解基因组序列,需要使用基因本体论(GO)术语、KEGG通路和表观遗传修饰等生物学相关信息进行注释。注释包括两个阶段:
(1) 计算阶段。计算阶段包括重复掩蔽、编码序列预测(CDS)和基因模型预测。
(2)注释的阶段。以上提到的所有证据b在开头预测,以及蛋白质-,EST-和rna -比对)然后合成成一个基因注释。此外,自动标注工具,如MAKER和PASA可以集成和权衡证据。如果基因注释有任何错误,WebApollo可以通过视觉界面编辑注释。
一旦通过目视检查评估基因组注释,就可以发布基因组序列和注释草案。为了让其他人改进基因组组装和注释,所有原始数据都应该上传。上传基因组的可用数据库包括ENSEMBL和NCBI。
如果您对我们的基因组学服务感兴趣,请访问我们的网站:www.selfdr.com为更多的信息。我们可以提供全套的基因组测序欧宝体育官网网址包括…在内全基因组测序欧宝体育官网网址,ob 官网 ,目标区域测序欧宝体育官网网址,线粒体DNA (mtDNA)测序欧宝体育官网网址,质粒DNA全测序欧宝体育官网网址.
参考资料:
每个月都能从CD Genomics获得最前沿的科学信息,并直接发送到你的收件箱。