上海交通大学医工交叉研究取得重要进展

——成功构建中国汉族人泛基因组分析流程

来源:交大医学院侨联       发布时间:2019/8/9 14:09:39

字体:【大】【中】【小】

  近日,来自上海交通大学和交大医学院的两个跨学科、跨专业科研团队,通过数年的协作科技攻关,在人类基因组分析方法学上开发了一套全新的人类基因组测序数据分析系统---人类泛基因组分析系统(Human Pan-genome Analysis system,简称HUPAN)。该项研究成果于2019年7月31日在国际基因组学研究权威刊物《Genome Biology》在线发表(影响因子14.028)。该研究工作是由上海交通大学生命科学技术学院韦朝春教授课题组和交大医学院附属瑞金医院于颖彦教授课题组联合完成。韦朝春教授与于颖彦教授为该文章共同通讯作者,博士生段忠取为该文章第一作者。该项研究是上海交大启动医工交叉项目以来取得的重要实质性成果。项目实施期间还得到国家科技部及国家卫健委重点研发计划、国家自然科学基金委、上海市科委重点项目以及交大医学院转化医学创新基金等的大力支持。

  背景知识

  人类基因组计划宣告完成后产生了一个基于有限个体的人类参考基因组序列,这就是当前众多的分子生物学实验研究的参照基础。但随着对人类基因组测序研究的广泛开展,测序个体数量的不断增加科学家们逐渐发现,现有的人类基因组参考序列尚不够完整,特别是在一些特定的人群或个体基因组中被测序到现有人类基因组参考序列中缺失的片段,也就是说,人类基因组的序列其实比已知的基因组参考序列要复杂的多,尚有很多未知序列(或者说是暗物质)有待于科学家们通过不断的深化研究加以发现。

  泛基因组(Pan-genome)研究的意义

  泛基因组是指某个群体中所有个体基因组的总和。随着测序技术的进展,针对人类某个群体的多个个体基因组的测序数据不断积累增加,给泛基因组研究提供了前所未有的契机。然而,人类全基因组测序数据量庞大,现有针对如此大型的基因组数据进行拼接研究的方法学尚有限,如果研究方法不加以创新,在分析过程中容易引入较多的拼接错误,且会导致分析速度缓慢。为此,上海交大生命科学技术学院与交大医学院附属瑞金医院的研究人员进行了分析方法的创新,他们首先对原有真核生物泛基因组分析流程进行改进,包括引入节约内存的拼接方法,可直接对每个个体的所有测序数据进行拼接以降低拼接错误,优化了泛基因组分析步骤,从而明显提高了海量测序数据的分析速度。该方法学的建立为解析人类基因组中尚未被发现的“暗物质”提供了重要研究工具。

  为了构建新型的分析系统,研究人员针对185个中国汉族人的全基因组开展深度测序分析,并整合了开放数据库内已有的90个中国汉族人全基因组深度测序数据。通过新构建的人类泛基因组分析流程,至少在中国汉族人全基因组测序数据中发现了不同于人类参考基因组中的29.5Mb新序列,暨人类基因组参考序列中漏掉的序列。通过新基因预测分析,发现至少188个新基因,其中约40%属于中国汉族人特有的基因。

  该新型泛基因组研究方法的开发不仅仅为深入研究人类进化、人类迁徙规律、种族基因组之间差异以及新基因是否与人类疾病相关提供了重要工具,还为其它具有较大基因组的高等动物泛基因组研究提供了重要实验工具。项目实施过程中还得到上海市转化医学协同创新中心和上海交大超级计算机中心提供的硬件支撑。

   WDCM上传图片 

  韦朝春,上海交通大学生命科学技术学院生物信息学与生物统计学系教授/博士生导师。先后于北京大学和美国华盛顿大学(圣路易斯)获得数学学士、信息处理硕士和计算机科学博士学位。主要研究方向为基因组学和进化基因组学。具体研究内容包括基因组中的功能因子识别及其进化分析、真核生物泛基因组学、肿瘤基因组学和宏基因组学等。

   WDCM上传图片 

  于颖彦,上海交通大学医学院附属瑞金医院教授/博士生导师,上海消化外科研究所副所长,中国抗癌协会胃癌专业委员会委员,中国医药生物技术协会生物样本库分会及慢病管理分会常委。上海市浦江人才与上海市优秀学术带头人。从事消化病理、肿瘤分子分型、生物标志物和转化医学研究。承担国家重点研发计划精准医学专项和慢病专项课题,国家自然科学基金、上海市科委重点项目、上海交大医工交叉重点项目以及交大医学院转化医学创新基金等。