最近在看转录组数据分析的文献,想下载一些原始数据自己跑一跑的,发现自己对于几个高通量测序数据库还是有些不太熟悉。以我现在的经验来看,EBI数据库的原始测序数据最容易获得,可以直接在EBI官网下载需要的fastq格式文件,但是NCBI的SRA数据库下载数据还是有些麻烦的,做个学习笔记记录下。
最近在看转录组数据分析的文献,想下载一些原始数据自己跑一跑的,发现自己对于几个高通量测序数据库还是有些不太熟悉。以我现在的经验来看,EBI数据库的原始测序数据最容易获得,可以直接在EBI官网下载需要的fastq格式文件,但是NCBI的SRA数据库下载数据还是有些麻烦的,做个学习笔记记录下。
前面说到DESeq2包需要准备两个输入文件,一个是样本列表矩阵,一个是row count定量表达矩阵,接下来我们要对样本进行两两比对,找到两组之间有多少个基因上调和下调,不进行两两比对直接把4组数据4个重复全部导进去得到的结果是没有意义的,这里用DESeq2做表达基因的差异分析
HTseq也是对有参考基因组转录数据进行表达量分析的,主要用于reads计数。这个软件功能就比较专一,不像stringtie还需要运行prepDE.py脚本进行数据转化,直接一步到位。那为什么我一开始不用HTseq呢?因为我遇到一个bug 主要还是运算速度的问题,我比较了两种定量方式,HTseq定量虽然只有一步,但是速度远不如stringtie,也可能是我的问题,下面会说到。
IGV(Integrative Genomics Viewer)是一个非常方便的比对软件,在使用前只需要将参考基因组和bam文件分别建立索引(即建立fai和bai文件)并载入,就可以对转录组测序数据进行可视化浏览。对比samtools tview功能,这个软件有交互式操作界面,对萌新非常友好。