Transcriptome:构建索引、CleanData比对
Transcriptome:构建索引、CleanData比对

Transcriptome:构建索引、CleanData比对

构建索引和转录组CleanData比对

构建索引和转录组CleanData比对

1、安装hisat2软件

2、hisat2构建索引

#-p:选择使用的线程数;Toona_ciliata_LG_Genome.fasta:基因组染色体文件;index:索引文件的前缀,必须包含index_

#索引结果文件中包含多个以index_开头的文件

以index_开头的文件

3、利用索引文件批量比对fastq文件,生成sam文件。

香椿转录组sam文件大小一般为20G左右。该代码只针对一个文件夹的文件进行处理,需要多文件夹自动化处理,需增加文件夹的自动访问,具体代码参考后续的sam文件转bam文件。

4、将sam文件转成bam文件

以当前50线程的服务器来算,运行40次需要10小时左右(实际为二进制文件,因此文件相对较小,为3G左右)。

sam文件和bam文件

利用samtools的sort命令将bam进行排序。

(为什么 BAM 文件sort之后体积会变小?因为BAM文件是压缩的二进制文件,对文件内容排序之后相似的内容排在一起,使得文件压缩比提高了)

bam文件

将下列代码写成.sh文件,利用“bash 文件名”运行。

 

发表回复