CD基因组——基因组服务公司
支持文档 CD基因组学的思维方式 探索我们开发的科学文件,包括样本提交指南,原则,应用和遗传技术的生物信息学。欧宝官网app苹果下载
首页/资源/支持文档/生物信息学分析/基因组组装概述

基因组组装概述

在生物信息学中,基因组组装是指将大量短DNA序列重新组合在一起,以重建DNA起源的原始染色体的过程。序列装配是执行后的基本步骤之一新一代测序欧宝体育官网网址,PacBio SMRT测欧宝体育官网网址序,或纳米孔测序欧宝体育官网网址.建立的基因组组装可以提交到数据库,如欧洲核苷酸档案,NCBI组装,和集合基因组。你也可以浏览这些数据库,寻找其他研究人员完成的基因组序列。

两种类型的基因组组装

有两种不同类型的基因组组装:新创组装并映射到参考基因组(也称为基于参考的校准)。新创装配是指在没有参考基因组数据的情况下,从零开始对一个新基因组进行基因组装配。参考基因组或参考集合是一个数字核酸序列数据库,作为一个物种的基因集的代表性例子。一旦参考基因组可用,在它的帮助下,基因组组装变得更容易,更快,甚至更准确。因此,除非必要,研究人员会选择参考比对的方法。基于引用的对齐已经成为当前诊断中的标准。

表1。Reference-based对齐vs。新创组装。

基于引用的对齐 新创组装
优势
  • 适合SNV和小的内径)
  • 通过使用覆盖率信息处理删除和复制
  • 组装基因组的快速方法
  • 隐藏原始数据的局限性
  • 更多的工具来处理结果
  • 更容易的注释和比较
  • 不要依赖参考基因组
  • 用于搜索未知基因/转录本(如有新引入的转录本,改变的剪接位点)
  • 适合结构变化
缺点
  • 需要参考基因组
  • 特征检测受读取长度限制
  • 需要非常高质量的原始数据
  • 速度慢,对基础设施要求高

评估一个装配

在基因组装配之后,评估装配的质量是很重要的。下表列出了一些重要的和常用的组装指标。N50是最常用的度量衡,它代表支架或连体长度的最小值,超过50%的组件。它描述程序集的“完整性”。

基因组组装概述图1。N50的计算实例。

表2。用于评估组件质量的一些常用统计数据

指标 描述
将军 N50表示基因组序列的一半大于或等于N50的contig大小(↑)。
NG50 覆盖50%基因组长度的支架长度(↑)。
报道 如果90%的碱基至少有5X读覆盖,则认为基因组是准确的(↑)。
N90 如果一个组件的N 90> 5 Kb(↑),则认为该组件具有连续性。
平均叠连群长度 平均contig长度应该大于5000个碱基(5 Kb)(↑)。
数量的基因 如果能识别大多数已知基因的组合被认为是较好的组合(↑)。
数量的差距 装配中的间隙降低了质量(↓)。
有效性 程序集可以通过参考序列(↑)进行验证。

注意,↑表示越高越好,↓表示越少越好。

影响基因组组装结果的因素

除了基因组组装的过程外,以下问题也会强烈影响基因组组装的质量。对端测序和长读技术是提欧宝体育官网网址高基因组组装质量的两种策略。

1.基因组的特性

基因组的性质可能影响基因组的组装。

  • 基因组大小。基因组越大,需要的数据就越多。因此,在排序序列数据之前,需要估计基因组大小,这可以通过调查近缘物种的基因组大小来推断。
  • 重复。基因组中重复序列的数量和分布在很大程度上影响着基因组组装的结果。这可能导致错误组装和对重复大小的错误估计。
  • 杂合性。如果基因组是高度杂合子的,从同源等位基因中读取的序列可能差异太大而无法组合在一起,这可能会导致更碎片化的组合或产生对同源性的怀疑。
  • 倍性水平。如果可能,最好对单倍体组织进行测序,避免杂合性带来的问题。
  • GC-content。不均匀的GC含量会导致Illumina测序的问题,导致在这些区域的低覆盖率。欧宝体育官网网址

2.核酸提取

DNA隔离RNA隔离,这里有几件事需要注意:DNA/RNA的完整性,DNA/RNA的纯化,足够的DNA/RNA量,.与重测序相比,欧宝体育官网网址新创欧宝体育官网网址测序需要高级的核酸。NGS最重要的核酸质量参数是化学纯度和结构完整性。

3.欧宝体育官网网址测序方法

测序方法的确定是影响基因组组装成本和成功的欧宝体育官网网址一个重要因素。NGS已经应用于许多杰出的项目,如1000个基因组计划和人类微生物组计划。然而,一些重要的感兴趣的基因不能正确组装,主要是由于重复元件的中断。第三代测序是一个很有前途的解决方案欧宝体育官网网址,基于跨越重复区域的长读取。

4.原始数据处理

尽管有一些组装工具倾向于处理原始数据,包括潜在的适配器序列,但我们强烈建议研究人员研究手册,以确定程序是否需要经过质量调整的数据。如果需要进行数据修剪,则有必要通过修剪低质量的读端和过滤低质量的读来忽略质量差的数据。有多种工具可用于此目的,如PRINSEQ32和Trimmomatic33。

引用:

  1. Wajid B, Serpedin E.自己做基因组组装指南。功能基因组学简介高分子学报,2014,15(1):1-9。
  2. 李文华,李文华,李文华,等。开始基因组组装和注释的十个步骤。2018年F1000Research, 7。
*只供研究用途。不用于诊断程序。
和我们的科学家谈谈

你想讨论什么?

我们要和谁谈话?

验证码

*为必填项。

从CD基因组学获取最前沿的科学信息,每个月直接发送到您的收件箱。

订阅我们的通讯
CD基因组——基因组服务公司
欧宝娱乐平台正规安全吗


服务

Baidu