1月15日,生物多样性研究领域的权威专业期刊Systematic Biology发表了北师大核桃研究团队题为“幽灵基因渐渗的检测需要充分利用基因树拓扑结构和枝长信息”的研究论文,在幽灵基因渐渗研究方向上所取得又一重要进展。
近年来,关于杂交(hybridization)和基因渐渗(introgression)研究取得了巨大进展,“幽灵基因渐渗(ghost introgression)”——来自于已灭绝的或未采样的物种向现存物种的基因流动——已成为生物多样性形成机制研究的前沿和焦点。然而,准确识别幽灵基因渐渗仍然面临着很大的挑战,因为当前最常用的检测方法只利用了基因树拓扑结构方面的信息,不能准确识别不同的基因渐渗情景。在本研究中,作者考虑了在给定物种树AB|C的前提下所发生的各种基因流情景(图1a-c),通过数学分析和计算机模拟评估了当前流行的检测基因渐渗的系统发育学方法(phylogenetic methods)的性能,包括启发式方法HyDe、PhyloNet/MPL(或者SNaQ)以及全似然(full-likelihood)方法BPP。
图1. a-c)三种基因渐渗情景;d-f)不同物种间基因对的溯祖时间分布
研究结果表明,依赖于位点模式(site pattern)或基因树拓扑(gene-tree topology)的启发式方法均无法有效区分幽灵基因渐渗和非姐妹种间基因渐渗(图2)。其中HyDe由于假定杂交物种形成模型,在确定了基因流存在的情况下会明确地将其推断为内流(inflow)渐渗。因而,HyDe仅在内流渐渗情景下表现良好,但在外流(outflow)渐渗和幽灵基因渐渗的情景下,会同时错判基因流的贡献者和接受者——把外流和幽灵渐渗也错误地判断为内流渐渗。PhyloNet/MPL和SNaQ同样会混淆这三种基因流情景,既可能将幽灵基因渐渗错误地识别为非姐妹种间的渐渗,也可能将非姐妹种间渐渗错判为幽灵基因渐渗。相比之下,基于多序列比对数据的全似然方法BPP由于同时考虑了基因树的拓扑和枝长信息,能够准确识别各种基因渐渗情景。全似然法虽然还有PhyloNet软件包中的MCMC-SEQ法、BEAST软件包中的Species Network法,但这些方法的计算量太大而无法应用于系统发育基因组学数据集(phylogenomic dataset)。因而对于现实工作中如何进行基因渐渗的检测,作者提出了两步走的工作策略:(1)应用常规的快速基因流检测方法(如D统计量、PhyloNet-MPL法、PhyloNetwork-SNaQ法等),确定基因流的存在以及可能涉及的物种(基因流贡献者和接受者);(2)选择与基因流事件直接相关的三个物种和相应的多位点序列数据集(multilocus sequence data),利用全似然法BPP来鉴别具体的基因流情景以及基因流的贡献者(含幽灵支系)和接受者。
图2. HyDe和PhyloNet/MPL在三种基因渐渗情景下的结果
该研究于2024年1月15日正式发表在Systematic Biology上。Systematic Biology创刊于1952年,是系统生物学家学会的官方期刊,每年发文量只有80篇左右。北京师范大学2021级生态系博士研究生庞晓旭为该论文的第一作者,张大勇教授为通讯作者。本文是继2023年1月首次在Systematic Biology上发表幽灵基因渐渗对物种树推断和分化时间估计影响的论文之后,在幽灵基因渐渗研究方向上所取得的又一重要进展。该研究得到了国家自然科学基金项目(31421063、32170223)、“111”高校学科创新引智计划项目(B13008)、北京市“地表过程”高精尖项目以及国家重点研发计划项目(2017YFA0605104)的支持。