前面介绍了如何找到差异基因,我们通过R包DESeq2获得了差异表达基因,在此基础上做了更为直观的火山图和差异表达基因热图。但是仅仅知道差异表达基因的名字还不够,我们还要知道它到底有哪些功能和特征,就比如我看到一个很养眼的动漫角色,我就要去查查出自哪部番,是怎么样的人设和背景故事,一样的道理。这里简单记录下如何使用AnnotationHub,以及怎么进行GO\KEGG富集分析。
前面介绍了如何找到差异基因,我们通过R包DESeq2获得了差异表达基因,在此基础上做了更为直观的火山图和差异表达基因热图。但是仅仅知道差异表达基因的名字还不够,我们还要知道它到底有哪些功能和特征,就比如我看到一个很养眼的动漫角色,我就要去查查出自哪部番,是怎么样的人设和背景故事,一样的道理。这里简单记录下如何使用AnnotationHub,以及怎么进行GO\KEGG富集分析。
捣鼓了几天python代码,我现在也越来越发现python的魅力所在,它的强大之处在于有非常多的第三方库可以随意调用。我不需要知道这些第三方库各种函数的实现方式,只要知道这些函数有什么作用,能得到什么结果。只要构思好自己的想法,找到对应的库就可以一步步按照我的思路编写程序,实现我想要的结果,整个构思到实现的过程让我非常愉悦~
前面说到怎么用ggplot做一个火山图来查看各个基因的表达情况,火山图是以log2FC值为横坐标,以-log10(FDR)值作为纵坐标,将所有的基因都做了点状图。虽然能比较直观地看到所有基因表达情况,但我们真正感兴趣的是处理后差异表达的基因。因此,我们也可以通过前面得到的表达矩阵获得差异表达的基因名,对raw count数据进行提取和均一化,然后做一个差异基因的热图,能更直观地看到差异基因在各个样本中的上调下调情况。
最近在看转录组数据分析的文献,想下载一些原始数据自己跑一跑的,发现自己对于几个高通量测序数据库还是有些不太熟悉。以我现在的经验来看,EBI数据库的原始测序数据最容易获得,可以直接在EBI官网下载需要的fastq格式文件,但是NCBI的SRA数据库下载数据还是有些麻烦的,做个学习笔记记录下。
最近在自学python,刚入门苦于不知道从何下手,也不知道用什么编辑器比较适合。在度娘上搜了十几款编辑器,最终决定用微软的vscode,这个编辑器可以配置Python、Java、C ++等编程环境,而且有非常强大的插件功能,界面看着也挺友好,写个日志记录下自己瞎捣鼓的配置。
前面说到DESeq2包需要准备两个输入文件,一个是样本列表矩阵,一个是row count定量表达矩阵,接下来我们要对样本进行两两比对,找到两组之间有多少个基因上调和下调,不进行两两比对直接把4组数据4个重复全部导进去得到的结果是没有意义的,这里用DESeq2做表达基因的差异分析