CD基因组学 - 基因组学服务公司

/人类Pangenome参考财团从30个基因组发布数据

人类pangenome参考财团从30个基因组发布数据

书签和分享

3月3日,2021年3月

人类pangenome参考财团从30个基因组发布数据

纽约 - 人类Pangenome参考财团(HPRC)通过迄今为止组装的30个基因组释放数据来标记一年的进展。

通过美国,欧洲和日本的存储库提供的基因组包括来自太平洋生物科学的HIFI读取的数据,牛津纳米奥波尔技术的UltraLong Reads和Bionano Genomics的光学映射。所有30个样本的HI-C数据本月将发布燕尾榫基因组学的全部样品。此外,用于单倍型相位的单细胞模板链测序数据可用于七个样品,而Illumina NG欧宝体育官网网址S数据是来自60个父母在三重奏相中使用的父母。本集团计划还包括来自华盛顿大学的合作者在圣路易斯,国家人类基因组研究所和加州大学圣克鲁斯大学的额外基因组。

在今年的基因组和技术会议上的虚拟进展,UCSC的研究科学家Karen Miga表示,该联盟使用这些数据使用HifiSM发布的新De Novo装配算法来创建“令人难以置信的高质量相控程序”。上个月由哈佛大学恒利领导的研究人员。“我们在不仅在连续性或N50和阶段块中找到了巨大的成功,而且还在这些组件本身的质量上,”MIGA说。

基准基因组具有519个CentIG,NG50的NG50,相对于18MB的相块NG50,Q54评分,杂合SNP敏感性为99.3%。总体而言,她说,30个基因组的二倍体组件在18至59 MB之间,Q分数为50至56次。

MIGA添加了使用这些组件,开发了用于自动化质量控制协议和脚手架的新方法。她还提供了将推出作为端粒到电视(T2T)联盟的一部分开发的泛基因组项目的方法预览。

2019年推出的泛基因组项目从2019年推出了2950万美元的资金,泛基因组项目旨在提出更完整的人类基因组的代表性,捕获人口中存在的变种的多样性。其目标是生产数百种高品质的人类基因组组件,从端粒到端粒覆盖每条染色体。

其目标和参与者通常与T2T联盟重叠,MIGA与Nhgri Bioinformatician Adam Phillippy联系起来。

寻找映射和组装的方法,以便到基因组(如Centromeres和高度重复地区)的难以处理区域,这是这些项目的关键目标。MIGA指出,HPRC求依赖于近视测序技术的最近进步,即PACBIO的HIFI读取和牛津纳米孔技术的超长读数。欧宝体育官网网址

“我们的团队达到35x到40倍的覆盖范围大于Q20 HIFI,这个特定项目的读数为18至20 kB,”她说。HIFI输出的所有输出,但一个样本均为100 GB。

联盟还从牛津纳米孔超长读数大约6倍的覆盖率获得100kb或更多的读数 - 大约10%的纳米孔读数;60倍的Hi-C覆盖率和均茴香光图,N50的N50约为20 kB,约为100倍。

数据释放包括使用150bp配对结束测序的30x覆盖率的三重叠相位中使用的60 illumina ngs父母数据集。欧宝体育官网网址

可以通过欧洲生物信息学院的国家生物技术信息中心,欧洲生物信息学院的欧洲核苷酸档案(ENA)以及日本DNA数据库(DDBJ)来访问数据。

MIGA还分享了T2T联盟的进度。她说:“我们一直在发展的许多技术都将被带到”人类泛基因组的工作“,她说。2020年9月,本集团释放了含有零未经升压或脱落的体面的含有零颗粒状摩尔基因组的完整序列。与GRCH 38参考基因组相比,它具有Q70得分并引入100 MB和190 MB的新序列。

除了使用HIFI数据和牛津纳米孔超长读取的染色体组件之外,该联盟还在产生所有上生染色体短臂的第一高分辨率映射,以及基因组中的每种泌乳和焦化区域。MIGA表示,原位杂交的荧光被纳入为“播放拷贝数的良好伴随正交方法”。小组成员还在映射基因组重排和节段性重复,确定新的重复,甚至发现埋在焦化区域中的基因。

“我们尚未到终点线,”米娜警告说。最近释放的T2T基因组基本上是单倍体,存在“实际技术障碍能够到达二倍体T2T基因组的下一个里程碑”,“她说,更不用说难以做数百人的人体泛基因组努力。

更多信息在:https://www.genomeweb.com/sequenci欧宝体育官网网址ng/human-pangenome -reference-consortium-releases-data -30-genomes#.yer_jp0zy2w

热读
CD基因组学 - 基因组学服务公司
欧宝娱乐平台正规安全吗


服务

Baidu