admin
作者热门文章
Nature Methods | 阮珏/李恒合作开发更快更精准的第三代测序数据组装算法——wtdbg2
2019-12-18
责编 | 兮
 
如今完成一个人的全基因组测序已经是件普通实验室甚至家庭都可以负担起费用的“平常”事情,使用第三代测序技术可以获得更完整更连续的人类基因组序列。然而在20年前,破译人类遗传密码还是极具挑战的大科学工程,当时的人类基因组测序计划与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划。基因组学技术飞速进步源于测序技术的发展,同时也依赖于数据分析技术的提高。以第三代测序为例,目前完成个人全基因组测序仅需一天时间,费用也已经低于5万元。完成这样数据规模的全基因组组装分析,在2014年需要消耗50万个CPU小时,只能在超大计算机集群上进行。这种情况下,同时对大量个体进行组装分析是难以想象的,然而以全基因组组装方式对群体的测序分析已经成为生物医学研究的趋势。
 
近年来,生物信息学领域的科学家群体致力于改变这种数据产出速度远高于数据分析速度的尴尬状况,不断开发出更高效的组装分析算法。2019年4月1日,美国加州大学圣地亚哥分校Pavel A. Pevzner团队在Nature Methods杂志上发表文章Assembly of long, error-prone reads using repeat graphs,开发了长读长组装算法——Fyle,但是该算法仍然满足不了日益增长数据的分析需求。
 
2019年12月9日,中国农业科学院农业基因组研究所的阮珏博士与美国哈哈佛医学院的李恒博士在Nature Biotechnology杂志上发表文章Fast and accurate long-read assembly with wtdbg2,开发了第三代测序数据组装算法——wtdbg2相比于Flye,wtdbg2将分析速度又提升了5倍,也首次将数据分析时间降低到少于数据产出时间。

 
这项进展得益于一个新的组装图理论(Fuzzy Bruijn Graph,模糊布鲁因图)的提出。模糊布鲁因图借鉴了德布鲁因图(de Bruijn Graph)的思想,将测序数据切分为固定长度的短串,再从短串构建出的图上恢复出全基因组序列。德布鲁因图以速度优势常用于第二代测序数据的组装分析,但因测序噪音极高的难题,从未成功应用在第三代测序数据。模糊布鲁因图重新对短串进行定义,使之能够容忍高噪音数据,并随后对生成组装图与恢复基因组序列做了大量相应的重构,使其兼具高效率和高容错的优点。
 
 
这项研究起始于2013年,由中国农业科学院农业基因组研究所的阮珏博士与美国哈哈佛医学院的李恒博士合作完成。
 
据悉,研究成果自2016年起对所有人免费开放使用,不仅被几十篇学术论文引用,还被国内多家基因测序分析公司作为主要组装分析工具,并且在2019年世界大学生超算竞赛中做为性能测试赛题。
 
值得一提的是,该文章在今年1月26日首先发表在了预印版网站bioRxiv上。

原文链接:
https://www.nature.com/articles/s41592-019-0669-3
https://www.biorxiv.org/content/10.1101/530972v1

制版人:Yinong

参与评论0条
友情链接: 国家药品监督管理局
@2019 BIOART.COM ALL RIGHTS RESERVED.沪ICP备18041007号
评论
182