抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

经历了三个月小论文+大论文的摧残,最近终于闲下来了一点,继续更新一下学习笔记~

今天主要记录下怎么做的转录组趋势(时序)分析。大多数时候,我们的转录组数据不仅仅只有一组处理组和对照组,比如梯度实验会设置不同处理浓度,或者同一浓度处理下设置不同取样时间,来观察取样组织中基因随着浓度、时间等的变化规律,也就是进行基因表达的趋势分析

前面介绍了如何找到差异基因,我们通过R包DESeq2获得了差异表达基因,在此基础上做了更为直观的火山图和差异表达基因热图。但是仅仅知道差异表达基因的名字还不够,我们还要知道它到底有哪些功能和特征,就比如我看到一个很养眼的动漫角色,我就要去查查出自哪部番,是怎么样的人设和背景故事,一样的道理。这里简单记录下如何使用AnnotationHub,以及怎么进行GO\KEGG富集分析。

前面说到怎么用ggplot做一个火山图来查看各个基因的表达情况,火山图是以log2FC值为横坐标,以-log10(FDR)值作为纵坐标,将所有的基因都做了点状图。虽然能比较直观地看到所有基因表达情况,但我们真正感兴趣的是处理后差异表达的基因。因此,我们也可以通过前面得到的表达矩阵获得差异表达的基因名,对raw count数据进行提取和均一化,然后做一个差异基因的热图,能更直观地看到差异基因在各个样本中的上调下调情况。

主要介绍下在用DESeq2得到我们想要的差异表达基因后,如何在R中用ggplot和ggrepel绘制火山图。

前面说到DESeq2包需要准备两个输入文件,一个是样本列表矩阵,一个是row count定量表达矩阵,接下来我们要对样本进行两两比对,找到两组之间有多少个基因上调和下调,不进行两两比对直接把4组数据4个重复全部导进去得到的结果是没有意义的,这里用DESeq2做表达基因的差异分析

HTseq也是对有参考基因组转录数据进行表达量分析的,主要用于reads计数。这个软件功能就比较专一,不像stringtie还需要运行prepDE.py脚本进行数据转化,直接一步到位。那为什么我一开始不用HTseq呢?因为我遇到一个bug 主要还是运算速度的问题,我比较了两种定量方式,HTseq定量虽然只有一步,但是速度远不如stringtie,也可能是我的问题,下面会说到。

本篇笔记主要记录如何用Stringtie做转录本的组装和定量,以及如何制作样本列表矩阵,为后面DESeq2分析做铺垫。

IGV(Integrative Genomics Viewer)是一个非常方便的比对软件,在使用前只需要将参考基因组和bam文件分别建立索引(即建立fai和bai文件)并载入,就可以对转录组测序数据进行可视化浏览。对比samtools tview功能,这个软件有交互式操作界面,对萌新非常友好。

本篇笔记主要记录samtools的用法。

本片笔记主要记录Hisat2的用法,以及比较四个常用的比对参考基因组的软件。