Comparative Genomics:单拷贝直系同源基因
Comparative Genomics:单拷贝直系同源基因

Comparative Genomics:单拷贝直系同源基因

比较基因组分析-单拷贝直系同源基因查找

比较基因组分析:单拷贝直系同源基因查找

1 基因组蛋白质文件获取和预处理

1.1 基因组蛋白质文件下载

相关基因组网站网站:

NCBI:https://www.ncbi.nlm.nih.gov/

NGDB(国家基因组科学数据中心):https://ngdc.cncb.ac.cn/?lang=zh

CNGB(国家基因库生命大数据平台):https://db.cngb.org/

1.2 蛋白质文件预处理

由于orthofinder2软件问题,蛋白质文件名设置为3个字符最为合适(属名前缀1位+种名2位)。

orthofinder蛋白质输入文件

1.3 蛋白质序列名修改

修改前的序列文件

修改前的序列名

新建add_pre.sh运行文件,将现有蛋白质文件复制到新文件夹,在物种的每条序列名加上简写的物种名,便于后续识别(以XP_开头的蛋白质序列会串联错误)。

add_pre_Species文件夹中存放了添加了物种名简写前缀的蛋白质文件。

修改后的序列

2 Orthofinder2软件安装

2.1 新建名为comp_genome、python版本为3的环境。

2.2 激活环境

2.3 安装软件

3 物种基因组蛋白质文件预处理

去除基因组蛋白质文件的转录变体:

新建primary_transcripts.sh,批量运行orthofinder2自带的脚本primary_transcript.py。

由于orthofinder2是利用miniconda在Comp_Genome环境中安装的,因此该脚本位于环境的bin文件夹中。

运行结束后,去除转录变体的基因组蛋白质文件位于当前工作路径(/home/hztext/dai/Comp_Genome/Nine_species/)的primary_transcripts文件夹中。

4 Orthofinder2查找单拷贝直系同源基因

新建run_orthofinder.sh运行文件

-t:线程数;-f:蛋白质文件输入路径;-o:结果输出路径。结果文件在(Result+日期)目录中。

reminder.sh:当这个上述命令行运行结束后,利用“传息“:https://cx.super4.cn/微信消息提醒。

orthofinder结果文件列表

当运行结束后需要补充新物种,需要新建一个文件夹New_Species,运行以下命令。

-b:之前分析的结果文件夹;-f:新增蛋白质序列的文件夹。

当运行结束后需要删除部分物种,需要修改结果目录(Results_Nov24/WorkingDirectory)下的SpeciesIDs.txt,将文件中对应物种的行前加上#进行注释。

原SpeciesIDs.txt:

原物种ID

需要修改并删除物种:

修改后的SpeciesIDs.txt

发表回复