中 文 English 欢迎您,请登录 | 还没帐号?请注册 
 

 

新闻资讯

> 首页 > 新闻资讯 > 科技动态 > 正文
通知公告实验室新闻科技动态
 

基于PacBio单分子测序技术打造的亚洲人参考基因组

浏览:3864 来源:SKLMG
 

  测序技术在近两三年中又有新的里程碑。PacBio公司的SMRTsingle-molecule realtime sequencing)和Oxford Nanopore Technologies纳米孔单分子测序技术,被称之为第三代测序技术。与前两代相比,他们最大的特点就是单分子测序,测序过程无需进行PCR扩增。一个反应就可以测非常长的序列,二代测序现在可以测到上百个碱基,但是三代测序现在就可以测几千个碱基。由于具有读长长的特点,SMRT测序平台在基因组测序中能降低测序后的Contig数量,明显减少后续的基因组拼接和注释的工作量,节省大量的时间。第三代测序技术广泛应用于生物领域并取得巨大重要成果。

2016730号,由暨南大学粤港澳中枢神经再生研究院主导完成的第一个亚洲人参考基因组“华夏一号”【1】在线发表于Nature Communications杂志。2014年由暨南大学为主导发起了“华夏一号”的项目,利用三代测序技术对中国人进行测序以生成第一个亚洲人的参考基因组 。于2016年优先于韩国团队顺利完成亚洲人参考基因组研究成果的发表。华夏一号”基因组组装策略结合了PacBio SMRT单分子实时测序技术和BioNano光学图谱分析技术,最终得到一个中国人个体的基因组接近完成图。其中基于三代测序技术,本项目平均读长达到7kbN5012.1kb,均远大于二代测序约150bp的测序读长;通过优化FALCON组装程序,组装得到2.93Gb基因组,其 Contig N508.3Mb;同时该项目利用BioNano的光学图谱分析平台,产出超过101X的基因组覆盖率,使Scaffold N50达到22Mb。与目前广泛使用的人类基因组参考序列版本GRCh38相比,“华夏一号”组装图填补了后者近三分之一的缺口,并且发现了“华夏一号”独有的部分基因组区域(如图1)。与其它已经公布的亚洲人基因组参考序列相比,有 4.1Mb为首次报道的新发现序列。与目前已经发布的几个de novo的个人基因组相比较,“华夏一号”的Contig N50有将近10倍的提高(如表1)。


1 a. 在参考基因组GRCh38中所有gap的长度分布;b. 在所有gap能被全部覆盖和部分覆盖的长度分布;c. 在人类参考基因组GRCh38和填补的gapLINE, SINE, LTR,简单重复分布的小提琴图;d. 点图描述了HX117p13.3的位置被contig填补,并比较了两个序列,每个点代表它们之间相似的区域;e. Genome browser展示了被填补的gap区域,参考基因组GRCh38中两个contig见存在空白的gap,但在HX1涉及contig的位置却可以完整的比对到空白区域,因此能填补组装带来的gap,长度为718731bp.

据粤港澳中枢神经再生研究院相关学者介绍,“华夏一号”的发布填补了中国人群的疾病研究缺少精准参考基因组的不足,对于中国人群基因组学研究、遗传疾病研究、精准医疗应用等领域具有重要科学价值。特别是对于与基因拷贝数变异密切相关的神经遗传疾病,该项目呈现的精准参考基因组组装方式和组装结果将极大推动神经遗传疾病基因组信息的深度挖掘与应用。随着基因测序成为国家健康医疗大数据战略的主要内容之一,“华夏一号”将成为推进临床和科研大数据应用的重要基础性工作,大力推动中国的遗传疾病研究与诊断的发展。“华夏一号”研究成果的发表仅仅只是一个开始。

2016105日,亚洲韩国人基因组测序成果【2】于105日发表在《Nature》杂志,该研究完成了亚洲人基因组de novo测序、从头组装、结构变异及定相分析,Contig N50达到17.9MbScaffold N50达到44.8Mb。这是迄今为止发表的最为连续的人类基因组,为遗传学家提供了特异性人群参考基因组的重要数据。

该研究采用了PacBio 单分子实时(SMRT)测序技术、BioNano下一代图谱技术、微流体linked readsBAC测序等方法,完成了一个亚洲人个体AK1ref.1)基因序列的从头组装和单倍体型定相信息分析。运用PacBio单分子测序技术结合BioNano下一代图谱技术,获得了高度连续的组装图(图3),Contig N50高达17.9MbScaffold N50高达44.8Mb,并有8个染色体臂被分别组装解析为单独的Scaffold。这次从头组装,结合长读长扫描,关闭了常染色体参考基因组190gap中的105个,并延伸了其中的72gap,补充了1.03Mb以前棘手的序列。

 

3.  AK1 de novo assembly ScaffoldsGRCh38数据结果进行比较

结合62,758BAC克隆的组装和Paired-End序列信息,通过与人类参考基因组直接比较,该研究还鉴定到了18,210个结构变异,其中发现了数千个以往从未报道过的断裂点。大多数Insertion在转录本中同样得到反映,并存在于其他的亚洲人群中。

这项研究鉴定到的18,210个结构变异(Structural Variation, SVs)(图4),包含7,358Deletion10,077Insertion71Inversion704个复杂变异(Complex Variants),所有这些变异均在AK1组装结果和人类参考基因组GRCh37之间进行了直接比较,达到了单碱基的分辨率。在18,210个结构变异中,总共有11,927个变异是以前未曾报道的,其中包括的3,465Deletion占总Deletion47%7,710Insertion占总的Insertion76%。在这些新的SVs中,86%高度集中于移动元件和串联重复序列。相对应转录本的PacBio长读长序列显示,有155Isoform是从54个全新的插入位点处表达的,这意味着这些人类基因组中功能元件的存在,在以前是不可能通过短读长技术检测到的。 

4 a. 通过直接比较AK1组装图和GRCh37参考基因组比较,检测deletion(红色),insertion(蓝色),inversion(绿色)complex variant(灰色)。外圈饼图表示每种新发现的每种SV类型。总共65%11,927)的SV是以前未见报道的。

b. AK1insertiondeletion的重复序列组成。Insertiondeletion都是大部分由移动元件或串联重复序列构成。复杂变异被定义为由几种注释的重复元件构成的变异,或至少30%的剩余序列未被注释为重复序列。

基因组组装和定相信息研究的发展,为科学家们在不同人群中研究人类基因组二倍体结构,以及所有结构变异的发现提供了机会。这项研究利用PacBio第三代单分子测序技术与BioNano下一代图谱技术,展示了目前最为连续的二倍体人类基因组组装结果,进一步研究了未报道过的亚洲人群特异的结构变异,以及可用于精准医学临床诊断的相关等位基因的高质量单倍体型。

随着中国的科研机构对新的测序技术的深入研究,未来几年将会有更为广泛的研究方向,三代测序与组装技术也必将会给科研和临床,社会创造更大的价值。三代测序确实是基因组组装的超级神器,正式带领研究人员走入Mb级别的de novo基因组组装时代。

 

参考文献:

1L. Shi, et al., Long-read sequencing and de novo assembly of a Chinese genome.

     Nature Communications (2016)

2De novo assembly and phasing of a Korean human genome. Nature2016

  

 网络资源:http://www.macrogencn.com/_d277193667.htm

      http://news.jnu.edu.cn/jnyw/yw/2016/06/30/11512638334.html


     
     
     
    中南大学 | 湘雅医学院 | 生命科学学院 | 网站地图 | 联系我们 | 支持我们
     
     
    Copyright © 医学遗传学重点实验室
    湘ICP备05006191号 · 湘教QS3-200505-000576

    电话:0731-84472093 传真:0731-84478152 邮编:410078
    地址:中国湖南长沙市湘雅路110号 医学遗传学重点实验室

    访问统计:466798