linux统计单拷贝基因家族,利用orthofinder寻找单拷贝基因构建系统发育树

1.orthofinder介绍

OrthoFinder是一种快速、准确和全面的比较基因组学分析工具。它可以找到直系和正群,为所有的正群推断基因树,并为所分析的物种推断一个有根的物种树。OrthoFinder还为比较基因组分析提供全面的统计数据。OrthoFinder使用简单,只需运行一组FASTA格式的蛋白质序列文件(每个物种一个)。

2.基础知识介绍

Orthologue(直系同源基因)指的是来自两个物种的基因。Orthologue是由两个物种的最后共同祖先(LCA)上的单个基因进化而来的成对基因(图1A和B)。正群是同源概念在物种群中的自然延伸。一个Orthogroup(正交群)是由一个物种的LCA中的单个基因进化而来的一组基因(图1A)。当观察基因树时,一个邻位群体中基因的第一次分化是一个物种形成事件,对同源基因来说也是如此。

作为基因复制事件的结果,当观察直系同源基因和正交群时,可能会有来自同一物种的多个基因。在这个例子中(图1A和B),人类和老鼠的HuA基因是鸡中ChA1和ChA2的同源基因。再看一下正交群,我们发现有两个鸡的基因(图1A),但是只有一个来自老鼠和人类的基因。一些作者将ChA1和ChA2基因作为HuA的共同源基因,以强调存在多个同源基因的事实。由于基因重复和丢失在进化中经常发生,一对一的直系同源物很少见,通过分析正交群所有直系同源的情况(一对一,多对一,多对多),我们可以分析数据的所有情况。

paralogues (旁系同源基因)是指在基因复制事件中从单个基因中分离出来的成对基因,鸡的两个基因ChA1和ChA2是旁系同源基因(图1C)。来自不同物种的两个基因如果在基因重复事件中彼此分离,也可能是同源的。由于基因树中所有的分支事件要么是物种形成事件(产生直系同源基因),要么是重复事件(产生旁系同源基因),因此同一正交群中任何不是直系同源基因的基因必然是旁系同源基因。

52c2b99615f6

图1

直系同源物是同源性基因,是物种形成事件的结果。Paralogs(旁系同源物)是同源基因,是重复事件的结果。可以看到(图2),不同物种间的α-chain gene互为Orthologs(直系同源物)。正交群用来形容自一组物种的LCA中的单个基因的基因组(α-chain gene)。然后同一物种间α 和β chain gene互为Paralogs(旁系同源物)。最后所有这些关系都可以由OrthoFinder来识别。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值