Comparative Genomics:WGDI基因组复制事件
Comparative Genomics:WGDI基因组复制事件

Comparative Genomics:WGDI基因组复制事件

WGDI全基因组复制事件

全基因组复制事件

1 环境准备

2 WGDI软件安装

3 WGDI共线性分析

3.1 准备输入文件*.len、*.gff

新建dotplot_input_preprocessing.sh,修改输入的基因组文件名和注释文件名,以及输出的Tfa.len、Tfa.gff等。

Tfa.gff文件:为便于后期画图,可以将染色体序号简化为1,2,3等(第一列)

Tsi.gff文件:

Tfa.len文件:为便于后期画图,可以将染色体序号简化为1,2,3等(第一列)

Tsi.len文件:

 

3.2 准备输入文件Tsi_blastp_Tfa.txt

准备基因组蛋白质文件:Toona_ciliata_LG_CDS.pep、Toona_sinensis.Protein.fasta(需要比对的两个基因组,自身比较或两者比较)

-in Toona_ciliata_LG_CDS.pep:输入文件名,即包含蛋白质序列的FASTA文件。

-dbtype prot:指定数据库类型为蛋白质。

blastp:BLASTP程序,用于蛋白质序列比对。

-num_threads 40:使用40个线程并行处理,以加快比对速度。

-db Toona_ciliata_LG_CDS.pep:指定数据库文件Toona_ciliata_LG_CDS.pep

-query Toona_sinensis.Protein.fasta:指定查询文件Toona_sinensis.Protein.fasta

-outfmt 6:输出格式为表格(格式6),包含每个比对的详细信息。

-evalue 1e-5:设置期望值(E-value)阈值为1e-5,用于过滤不显著的比对结果。

-num_alignments 20:每个查询序列最多返回20个比对结果。

-out Tsi_blastp_Tfa.txt:将比对结果输出到Tsi_blastp_Tfa.txt文件中。

&:在后台运行命令。

Tfa.blastp.txt文件:

3.3 基因组共线性点阵图Dotplot

3.3.1 新建配置文件
3.3.2 利用vi命令修改配置文件

Tfa_Vs_Tsi.conf文件如下:

3.3.3 运行并绘制共线性点阵图

3.4 获取共线性(collinearity)区块的信息

3.4.1 新建配置文件
3.4.2 利用vi命令修改配置文件

Tfa_Vs_Tsi.collinearity.conf文件如下:

3.4.3 运行并获取共线性区块的信息

4 Ka、Ks计算

4.1 两物种基因组CDS和protein文件合并

T.fa和T.si基因组CDS文件合并

T.fa和T.si基因组protein文件合并

4.2 新建配置文件

4.3 利用vi命令修改配置文件

Tfa_Vs_Tsi.ks.conf文件如下:

4.4 运行并获取Ka、Ks的信息

Ks结果文件Tfa_Vs_Tsi.ks:

5 整合共线性区块和ks信息

5.1 新建配置文件

5.2 利用vi命令修改配置文件

Tfa_Vs_Tsi.blockinfo.conf文件如下:

5.3 运行并获取共线性区块上所有基因对的ks值(均值,中位数)

6 Ks分布拟合“单次”WGD事件

在Lynch和Conery在2000年发表在Science的论文中,他们证明了小规模基因复制的Ks分布是L型,而在L型分布背景上叠加的峰则是来自于演化历史中某个突然的大规模复制事件。 L型分布(呈指数分布, exponential distribution)的峰可能是近期的串联复制引起,随着时间推移基因丢失,形成一个向下的坡。正态分布(normal distribution)的峰则是由全基因组复制引起。

6.1 过滤并绘制ks点阵图

bk模块绘制的ks点阵图的点只包含确认了共线性的基因对,用ks值作为点的颜色信息,可以根据ks点阵图的共线性区域的颜色来区分不同时期的多倍化事件。

6.1.1 新建配置文件
6.1.2 利用vi命令修改配置文件

Tfa_Vs_Tsi.blockks.conf文件如下:

6.1.3 运行并绘制ks点阵图

6.2 过滤并绘制ks频率分布图

通过计算共线性区块的基因对ks值,可以获得基因对复制发生的时间,如果有全基因组复制(WGD)发生,那么现有物种的基因组会留下许多ks相近的基因对,通过ks频率分布图可以看到峰,由此判断WGD的发生次数和发生时间。

6.2.1 新建配置文件
6.2.2 利用vi命令修改配置文件

Tfa_Vs_Tsi.kspeaks.conf文件如下:

6.2.3 运行并绘制ks频率分布图

6.3 分段(ks_area)过滤并绘制ks频率分布图

6.3.1 新建配置文件1
6.3.2 利用vi命令修改配置文件1

Tfa_Vs_Tsi.kspeaks1.conf文件如下:

6.3.3 运行并绘制ks频率分布图1
6.3.4 新建配置文件2
6.3.5 利用vi命令修改配置文件2

Tfa_Vs_Tsi.kspeaks2.conf文件如下:

6.3.6 运行并绘制ks频率分布图2

6.4 高斯拟合ks频率分布图的峰——pf模块

6.4.1 新建配置文件1
6.4.2 利用vi命令修改配置文件1

Tfa_Vs_Tsi.peaksfit1.conf文件如下:

6.4.3 运行并绘制ks频率分布图的峰1
6.4.4 新建配置文件2
6.4.5 利用vi命令修改配置文件2

Tfa_Vs_Tsi.peaksfit2.conf文件如下:

6.4.6 运行并绘制ks频率分布图的峰2

6.5 拟合结果作图——kf模块

6.5.1 新建拟合参数文件Tfa_Vs_Tsi.all_ks.csv:(,,,,,,代表最多有两个峰)
6.5.2 新建配置文件
6.5.3 利用vi命令修改配置文件

Tfa_Vs_Tsi.peaksfit2.conf文件如下:

6.5.4 运行并绘制拟合结果

 

发表回复