入门泛基因组,从发展史到测序和分析(内附泛基因组数据库) ...

打印 上一主题 下一主题

主题 879|帖子 879|积分 2639

谈“泛基因组”之前,我们先聊聊传统参考基因组。高质量的参考基因组是做其他组学研究的条件,比如说我们常打仗的转录组,表观组ChIP-seq、CUT&Tag、WGBS和ATAC-seq等。基因组包罗生物体的全套遗传信息,研究中通常会将一个物种中告急的品系大概最先测出的基因组作为参考基因组,并以此为基础进行个体或群体程度的遗传变异分析。然而,由于地区、情况等因素的影响,同一物种内的差别个体间存在着丰富的遗传变异,来自单一个体的参考基因组难以覆盖。
单一参考基因组的局限性,由此“泛基因组”应运而生,它是指一个物种中全部个体的基因组信息的集合,包罗焦点基因组、非必需基因组和特有基因组


泛基因组的概念[1]
通常情况,对一个物种的多个个体进行测序、组装,然后比力分析,找到它们的共有基因大概基因组序列,这部门就是焦点基因组; 剩下的不是全部个体共有的,就黑白必需基因组,大概说是可变基因组(下图)。


图:利用多种基因型构建泛基因组[2]
根据下面的拟合曲线,可以将泛基因组分为两类:开放泛基因组(Open Pangenome)和封闭泛基因组(Closed Pangenome)。开放泛基因组指的是物种或种群的泛基因组规模可以持续增加,随着新个体的加入,泛基因组会不断引入新的基因,没有明显的上限。封闭泛基因组指的是物种或种群的基因组规模有限,随着新个体的加入,泛基因组的总大小趋于稳定,不再显著增加。


图:泛基因组大小作为分析中使用的个体数量标函数[2]
传统的基因组研究通常依赖于单一参考基因组,这种方法固然为基因组学的发展奠定了基础,但也存在显著的局限性。单一参考基因组无法全面反映种群内的遗传多样性,尤其是在高度异质性的物种中(如细菌、植物和人类)。泛基因组的提出弥补了这一不足,它通过整合多个个体的基因组信息,构建出包罗焦点基因组(全部个体共有的基因)和可变基因组(部门个体特有的基因)的综合基因组框架,从而揭示种群内的遗传多样性和进化规律。基于泛基因组的优势,可以想见未来泛基因组会成为参考基因组的新标准。


图:传统的线性参考基因组与泛基因组的比力[3]

 泛基因组的发展史 
测序技能的发展,尤其是三代技能在基因组组装和结构变异检测上有了很大的提升,带动了泛基因组的发展。泛基因组相干的文章数量也在逐年走高。


Pubmed发表文章
2005年,Tettelin等在无乳链球菌的研究中初次提出泛基因组的概念,包括全部菌株中都存在焦点基因组和部门菌株中特有的非必需基因组。2007年,Morgante等初次将这一概念引入植物研究,但当时限于测序技能和成本,并没有大规模应用。2014年,陆续报道了大豆、水稻和玉米等植物的泛基因组。厥后随之测序技能的发展,尤其是三代技能,很多植物的泛基因组得到构建,近两三年相干报道明显增加了不少。


01人泛基因组
传统的人类基因组研究以“参考基因组”(如GRCh38)为基础,但仅基于有限样本进行构建,未能充分反映全球人群的基因组多样性。2023年,人类泛基因组参考同盟构建了有史以来最完备、最准确的人类 "泛基因组 "。DNA 样本来自47个差别种族的个体。据官网信息,2024年预期增长到350个个体。
与GRCh38参考基因组相比,该人类泛基因组新增了1.19亿个碱基对的常染色质多态性序列和1,115个基因重复,此中约9,000万碱基对来自结构变异。人类参考基因组不断演化,从最初的HGP到GRCh36/37/38,标志着人类基因组学的进步。传统线性参考基因组的局限性使得泛基因构成为未来的主流方向。通过结合长读长测序、图结构算法,以及更大范围的人群数据,我们正在迈向一个更加全面、多样化的基因组研究新期间。
除了针对全球人类的泛基因组的构建,还有一些针对特定地区或国家的人类泛基因组的发布。2024年,复旦大学、西安交大、中国医学科学院等26家单位连合发布了中国人群泛基因组同盟(CPC)一期研究进展。相干成果以“A Pangenome Reference of 36 Chinese populations”为题发表于Nature。


02动物泛基因组
相较于微生物和植物,动物的泛基因组研究主要会合在人类和家禽类动物,在动物研究中,泛基因组学具有告急的科学代价和实际应用意义,涉及进化生物学、育种、遗传学以及保护生物学等多个方面。


据不完全统计,已构建泛基因组的动物
03植物泛基因组
2000年,模式植物拟南芥的第一个参考基因组发布,今后陆续发布了告急作物的第一个参考基因组,比如水稻、葡萄、玉米、大豆、番茄和小麦等。随着植物参考基因组的可用性和短读长测序技能的成熟(约2010年),利用新型盘算算法实现基因组范围内复杂结构变异(插入、缺失、重复、倒位等)的识别成为可能。2016年,提出了一种“映射到泛基因组”的策略,用于未映射短读长的组装和泛基因组的构建。险些在同一时间,PacBio和Nanopore长读长测序技能的进步促进了高质量基因组的组装和比力,以无偏差地识别PAV序列并构建泛基因组。2020年,第一个基于图形的植物泛基因组在大豆中构建;预计它将成为传统线性泛基因组方法的更好替代方案,以实现更有用的泛基因组分析。
高等植物具有高度的种内遗传多样性,以顺应差别的生长情况。得益于测序技能的发展,基因组在作物遗传学研究和分子育种中发挥越来越告急的作用。泛基因组比传统单个参考基因组具有很多优势,可以预见未来泛基因组在植物研究的应用会越来越广泛。


图:植物参考基因组构建中的主要事故的时间线(上)和代表植物泛基因组的方法(下)[4]

测序和分析  
01样本和测序
样本选择对泛基因组研究的检测服从和完备性至关告急。选择亲缘关系近的质料会低估泛基因组规模,而结合野生种质和种植种质则能构建更大规模的泛基因组。为在最低成本下捕获物种的全部基因组信息,应基于履历或群体结构选择最具代表性的个体,涵盖差别亚种、地区及野生与种植种等多种特性。


测序策略上,泛基因组构建通常接纳“三代+二代”的测序策略,同时以Hi-C和RNA-seq辅助组装和注释。


02 泛基因组构建
泛基因组的构建主要有三种方法:从头组装、迭代组装和基于图的组装。以下图为例,解释相干构建原理。


图:泛基因组的构建方法[6]


  • 从头组装
针对每个个体(A、B、C、D)的基因组数据进行De novo组装,生成每个个体的完备基因组序列。然后将全部个体的基因组比对,识别出焦点基因组和非必需基因组。这个组装能清楚地区分焦点基因组和特异的可变基因。但需要大量盘算资源,尤其当个体数量增加时,处置惩罚大规模数据的难度增加。


  • 迭代组装
使用一个个体(A)的基因组作为参考基因组,进行初始组装。将新增个体(如B)的基因组与参考基因组比对,整合新发现的序列,生成更新后的泛基因组(AB)。重复这一过程,依次加入其他个体(如C和D),终极得到包罗全部个体(ABCD)的完备泛基因组。优点:这是一种增量更新方法,每次只处置惩罚一个新增个体,盘算量相对较低。可以动态扩展泛基因组,便于分析过程中逐步改进。缺点:基于已有参考基因组组装,可能会对厥后加入的个体序列产生偏差,遗漏部门特异基因组特性。


  • 图形泛基因组
利用全部个体的基因组数据(De novo组装),构建序列图(Graph),图中每个节点表现一个基因或序列模块,每条边表现相邻序列之间的关系。差别颜色的模块节点对应差别个体的序列特性。共享路径:即全部个体都共有的基因或片段(比方焦点基因)。分支路径:即差别个体特有的可变序列(如仅存在于某些个体中)。
图形泛基因组的优点是能全面展示全部个体序列之间的共享与变异关系,尤其恰当高遗传多样性物种。表达机动,便于可视化复杂基因结构和变异模式。缺点:建立大规模序列图需要复杂算法和较高的盘算资源,成本高。通常情况需要10个个体以上的染色体程度的高质量基因组,一些文章接纳的策略是“自测+公共数据库”。


03泛基因组分析
泛基因组的分析流程大要如下:




  • 常见分析结果
泛基因组文章中常见的高频分析结果有系统发育树、焦点基因和非必需基因统计分类、结构变异分析、共线性分析和GWAS分析,涵盖了从进化分析到变异分析、基因组结构和功能基因挖掘等多方面内容。




  • 焦点与非焦点基因分析
泛基因组分析通过对每个个体中共有情况进行基因集聚类,通常分为以下三种:焦点基因(core gene)、非必需基因(dispensable gene)和特有基因(Private)。除了这三个分类,在某些研究中还有更细的分类。


泛基因组特性分析除了对基因进行分类,还会分析基因组大小和焦点基因组大小(下图a),有多少基因/基因家族在全部个体中都存在。泛基因组中基因频率分布形貌了基因在物种或群体基因组之间的守旧和可变性。基因频率分布,经常出现不对称的首尾高中间低的分布情势(U形),表明大多数基因要么以焦点基因组的情势存在于绝大多数个体中,要么存在于个别个体中(下图b)。焦点基因通常比力守旧,多为管家基因,可以大概反映该物种的稳定性;非必需基因通常具有特定情况顺应性,与个体的特性和防御反应相干[1]。


西瓜泛基因组分析[5]


  • 结构变异分析
泛基因组分析的重点之一就是结构变异,主要有几种范例:缺失(deletions)、 插入(insertions)、重复(duplications)、倒位(inversions)和异位(translocations)。比对参考基因组鉴定结构变异,然后统计SV数量和分布占比。此外,研究中通常利用PCR验证SV结果。


差别基因组中SV范例的比力[5]


PCR验证SV鉴定结果


  • SV-GWAS
GWAS是一种探索基因组变异与表型(疾病或其他性状)之间关联的方法。传统的GWAS大多基于SNP(单核苷酸多态性),但随着测序技能进步和基因组学的深入研究,结构变异(SV, Structural Variations)的告急性日益凸显,SV-GWAS逐渐成为新热点。结构变异涉及的DNA序列长,可能对表型产生更大的影响,数量相对SNP少。SV-GWAS,目前策略上通常接纳“泛基因组+群体重测序数据(二代)”的方式。




西瓜肉色的GWAS分析[5]
04泛基因组数据库
目前,有不少物种发布了泛基因组文章,而且发布了相干基因组和数据库。


  • 水稻泛基因组:https://riceome.hzau.edu.cn/
该数据库是华中农业大学开辟并储存的一个水稻数据库RGI,并向全球开放免费使用。在这个数据库里,亚洲稻的每一个基因都能轻松找到同源或相近的基因,以及追踪其演变历史。该数据库是天下上首个基于同源基因的水稻泛基因组综合数据库。




  • 杨树泛基因组:http://www.populus-superpangenome.com/
该数据库可以使研究人员可以大概轻松访问杨属超等泛基因组中任何物种的泛基因范例和特定基因的功能注释。该数据库还支持在物种内及跨物种搜索直系同源和旁系同源基因,从而高效探索多个基因组中的结构变异(SVs)。别的,这个网站还支持下载杨树物种的多种组学数据。






  • 家蚕泛基因组和多组学数据库SilkMeta:http://silkmeta.org.cn/




  • 甘蓝型油菜泛基因组数据库BnPIR:http://cbi.hzau.edu.cn/bnapus/


泛基因组家族分析 
基因家族分析通常用于研究一组来源于共同祖先的功能相干基因的扩张、收缩和进化特性,帮助明白基因的功能分化和生物性状的顺应性演化。以往的基因家族分析主要基于单一参考基因组,而且是一种低成本、短平快发文章的方式。
泛基因家族分析是一种基于物种泛基因组序列信息的新方法,可弥补单一参考基因组无法全面代表物种全部遗传变异的不足,为基因家族分析提供了全新的思绪。


基于玉米泛基因组(26个玉米基因组)的基因家族分析[7]
克日,澳大利亚莫道克大学李承道院士团队在Plant Communications 在线发表了题为 “Pangenome and pantranscriptome as the new reference for gene family characterisation -a case study of basic helix-loop-helix (bHLH) genes in barley”的研究论文,为泛基因组和泛转录组期间的基因家族分析提供了一个新参考——大麦bHLHs基因的案例研究:首个将泛基因组基因家族分析与泛转录组数据整合在一起的研究。


进行泛基因组基因家族分析的条件是已有发表的泛基因组。据不完全统计,目前已发表过泛基因组的植物有如下物种:


泛基因组和多组学 
泛基因组与多组学的结合将传统基因组分析从静态的基因结构层面延伸到动态的功能和调控层面。这种结合弥补了单一参考基因组视角的不足,可以大概深入探索基因变异如何影响复杂表型和生态顺应性,为农业育种和生物学基础研究提供了全新思绪,同时也为精准医学、工业化生物工程等范畴的应用开辟了更广阔的远景。
2024年,四川大学和南京林业大学等团队合作构建杨属物种属级程度超泛基因组,并结合转录组、甲基化组WGBS、染色质可及性ATAC-seq、群体重测序、基因功能验证等多维度、多标准证据,深入剖析了基因组同源/等位变异和表观遗传调控在杨属物种形态特性多样化和差异情况顺应性中的潜伏作用和可能机制[7]。


泛基因组研究之外衍生的泛转录组和泛三维基因组也是现在较为前沿的研究方向。
泛转录组:Pan-transcriptomic是泛基因组理论在转录组学中的延伸,通过全局比力差别样本或条件下的转录组,揭示物种多样性、顺应性和进化特性。主要生成和分析来自多个组织的大量短读和长读RNA测序数据集。
泛三维基因组:泛三维基因组(Pan-3D Genome)是一种基于三维基因组学和泛基因组学的整合研究方法,旨在构建特定物种或种群范围内多样性的三维基因组结构集合。
本期,我们介绍完泛基因组的根本内容,涉及概念、发展史、样本选择、测序策略、常见分析和相干泛基因组数据库,别的还有介绍基于泛基因组的基因家族分析,还有泛基因组和多组学的结合。
如您有泛基因组相干研究的计划,欢迎联系我们~





  • 参考文献
[1] 郝晨路,於晓芬,曲明昊,赖恩惠,郭素敏,高磊. 植物泛基因组研究进展与展望[J]. 植物科学学报,2022,40(1):124-132.
[2] Golicz A A, Bayer P E, Bhalla P L, et al. Pangenomics comes of age: from bacteria to plant and animal applications[J]. Trends in Genetics, 2020, 36(2): 132-145.
[3]  Matthews C A, Watson-Haigh N S, Burton R A, et al. A gentle introduction to pangenomics[J]. Briefings in Bioinformatics, 2024, 25(6): bbae588.
[4] Shi J, Tian Z, Lai J, et al. Plant pan-genomics and its applications[J]. Molecular Plant, 2023, 16(1): 168-186.
[5] Zhang Y, Zhao M, Tan J, et al. Telomere-to-telomere Citrullus super-pangenome provides direction for watermelon breeding[J]. Nature Genetics, 2024, 56(8): 1750-1761.
[6] Li W, Liu J, Zhang H, et al. Plant pan-genomics: recent advances, new challenges, and roads ahead[J]. Journal of Genetics and Genomics, 2022, 49(9): 833-846.
[7] Shi T, Zhang X, Hou Y, et al. The super-pangenome of Populus unveils genomic facets for its adaptation and diversification in widespread forest trees[J]. Molecular Plant, 2024, 17(5): 725-746.

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

南七星之家

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表