比较基因组分析:单拷贝直系同源基因查找
1 基因组蛋白质文件获取和预处理
1.1 基因组蛋白质文件下载
相关基因组网站网站:
NCBI:https://www.ncbi.nlm.nih.gov/
NGDB(国家基因组科学数据中心):https://ngdc.cncb.ac.cn/?lang=zh
CNGB(国家基因库生命大数据平台):https://db.cngb.org/
1.2 蛋白质文件预处理
由于orthofinder2软件问题,蛋白质文件名设置为3个字符最为合适(属名前缀1位+种名2位)。
1.3 蛋白质序列名修改
修改前的序列文件
新建add_pre.sh运行文件,将现有蛋白质文件复制到新文件夹,在物种的每条序列名加上简写的物种名,便于后续识别(以XP_开头的蛋白质序列会串联错误)。
x1#进入工作路径
2cd /home/hztext/dai/Comp_Genome/
3mkdir -p add_pre_Species
4cp /home/hztext/dai/Comp_Genome/Nine_species/*.pep /home/hztext/dai/Comp_Genome/add_pre_Species/
5cd ./add_pre_Species
6
7for i in *.pep; do
8 filename="${i%.*}"
9 sed -i "s|^>|>${filename}|" "${filename}.pep"
10done
add_pre_Species文件夹中存放了添加了物种名简写前缀的蛋白质文件。
2 Orthofinder2软件安装
2.1 新建名为comp_genome、python版本为3的环境。
xxxxxxxxxx
11conda create -n comp_genome python=3
2.2 激活环境
xxxxxxxxxx
11conda activate comp_genome
2.3 安装软件
xxxxxxxxxx
11conda install orthofinder2
3 物种基因组蛋白质文件预处理
去除基因组蛋白质文件的转录变体:
新建primary_transcripts.sh,批量运行orthofinder2自带的脚本primary_transcript.py。
由于orthofinder2是利用miniconda在Comp_Genome环境中安装的,因此该脚本位于环境的bin文件夹中。
xxxxxxxxxx
101
2#进入基因组蛋白质文件存放的文件夹
3cd /home/hztext/dai/Comp_Genome/Nine_species/
4# 遍历以"pep"结尾的文件
5for i in *.pep ; do
6 # 获取文件名(不包括扩展名.pep)
7 filename="${i%.*}"
8 # 运行脚本并将输出保存到新文件夹
9 python /home/hztext/miniconda3/envs/comp_genome/bin/primary_transcript.py "$i"
10done
运行结束后,去除转录变体的基因组蛋白质文件位于当前工作路径(/home/hztext/dai/Comp_Genome/Nine_species/)的primary_transcripts文件夹中。
4 Orthofinder2查找单拷贝直系同源基因
新建run_orthofinder.sh运行文件
x
1orthofinder -t 45 -f /home/hztext/dai/Comp_Genome/add_pre_Species/ -o /home/hztext/dai/Comp_Genome/Nine_ortho_result
2bash /home/hztext/dai/Comp_Genome/Demo_deal/reminder.sh "您的orthofinder计算8个物种已完成"
-t:线程数;-f:蛋白质文件输入路径;-o:结果输出路径。结果文件在(Result+日期)目录中。
reminder.sh:当这个上述命令行运行结束后,利用“传息“:https://cx.super4.cn/微信消息提醒。
当运行结束后需要补充新物种,需要新建一个文件夹New_Species,运行以下命令。
xxxxxxxxxx
1orthofinder -t 45 -b /home/hztext/dai/Comp_Genome/Nine_ortho_result/Results_Nov24 -f New_Species
-b:之前分析的结果文件夹;-f:新增蛋白质序列的文件夹。
当运行结束后需要删除部分物种,需要修改结果目录(Results_Nov24/WorkingDirectory)下的SpeciesIDs.txt,将文件中对应物种的行前加上#进行注释。
原SpeciesIDs.txt:
需要修改并删除物种: