在生物信息学中,基因组组装是指将大量短DNA序列重新组合在一起,以重建DNA起源的原始染色体的过程。序列装配是执行后的基本步骤之一新一代测序欧宝体育官网网址,PacBio SMRT测欧宝体育官网网址序,或纳米孔测序欧宝体育官网网址.建立的基因组组装可以提交到数据库,如欧洲核苷酸档案,NCBI组装,和集合基因组。你也可以浏览这些数据库,寻找其他研究人员完成的基因组序列。
两种类型的基因组组装
有两种不同类型的基因组组装:新创组装并映射到参考基因组(也称为基于参考的校准)。新创装配是指在没有参考基因组数据的情况下,从零开始对一个新基因组进行基因组装配。参考基因组或参考集合是一个数字核酸序列数据库,作为一个物种的基因集的代表性例子。一旦参考基因组可用,在它的帮助下,基因组组装变得更容易,更快,甚至更准确。因此,除非必要,研究人员会选择参考比对的方法。基于引用的对齐已经成为当前诊断中的标准。
表1。Reference-based对齐vs。新创组装。
基于引用的对齐 | 新创组装 | |
优势 |
|
|
缺点 |
|
|
评估一个装配
在基因组装配之后,评估装配的质量是很重要的。下表列出了一些重要的和常用的组装指标。N50是最常用的度量衡,它代表支架或连体长度的最小值,超过50%的组件。它描述程序集的“完整性”。
图1。N50的计算实例。
表2。用于评估组件质量的一些常用统计数据
指标 | 描述 |
将军 | N50表示基因组序列的一半大于或等于N50的contig大小(↑)。 |
NG50 | 覆盖50%基因组长度的支架长度(↑)。 |
报道 | 如果90%的碱基至少有5X读覆盖,则认为基因组是准确的(↑)。 |
N90 | 如果一个组件的N 90> 5 Kb(↑),则认为该组件具有连续性。 |
平均叠连群长度 | 平均contig长度应该大于5000个碱基(5 Kb)(↑)。 |
数量的基因 | 如果能识别大多数已知基因的组合被认为是较好的组合(↑)。 |
数量的差距 | 装配中的间隙降低了质量(↓)。 |
有效性 | 程序集可以通过参考序列(↑)进行验证。 |
注意,↑表示越高越好,↓表示越少越好。
影响基因组组装结果的因素
除了基因组组装的过程外,以下问题也会强烈影响基因组组装的质量。对端测序和长读技术是提欧宝体育官网网址高基因组组装质量的两种策略。
1.基因组的特性
基因组的性质可能影响基因组的组装。
2.核酸提取
为DNA隔离或RNA隔离,这里有几件事需要注意:DNA/RNA的完整性,DNA/RNA的纯化,足够的DNA/RNA量,等.与重测序相比,欧宝体育官网网址新创欧宝体育官网网址测序需要高级的核酸。NGS最重要的核酸质量参数是化学纯度和结构完整性。
3.欧宝体育官网网址测序方法
测序方法的确定是影响基因组组装成本和成功的欧宝体育官网网址一个重要因素。NGS已经应用于许多杰出的项目,如1000个基因组计划和人类微生物组计划。然而,一些重要的感兴趣的基因不能正确组装,主要是由于重复元件的中断。第三代测序是一个很有前途的解决方案欧宝体育官网网址,基于跨越重复区域的长读取。
4.原始数据处理
尽管有一些组装工具倾向于处理原始数据,包括潜在的适配器序列,但我们强烈建议研究人员研究手册,以确定程序是否需要经过质量调整的数据。如果需要进行数据修剪,则有必要通过修剪低质量的读端和过滤低质量的读来忽略质量差的数据。有多种工具可用于此目的,如PRINSEQ32和Trimmomatic33。
引用:
从CD基因组学获取最前沿的科学信息,每个月直接发送到您的收件箱。