抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

最近因为学校网络信息中心升级防火墙,导致集群无法访问公网,我搭建的反向代理服务器也暂时无法使用(真的想吐槽学校的网络管理员,三个星期了还没能解决集群的网络问题)……近期要进行中期答辩,先用向日葵远程一下实验室闲置的电脑应急,顺便把最近的学习笔记补上。

这篇笔记主要记录下单细胞组学的学习,以及单细胞转录组(Single-cell RNA-sequencing,scRNA-seq)的分析流程。

因为自己的生信基础知识比较薄弱,最近在华农跟着王老师上了一些植物基因组课程,记录一下。这一次主要结合课堂内容、MCScanX官方文档以及自己的理解,演示基因组共线性工具MCScanX的用法。

注释得到的基因集中,可能某些基因存在被转座子插入的情况,该基因会在后续功能注释的时候被注释上,但实际在基因组中该基因可能已经被插入失活。因此在基因组的功能注释前,需要用检测转座子软件(如TransposonPSI、TEsorter等)将含有转座子的基因找出并去除。

在对基因组重复序列和ncRNA进行注释后,接下来是基因预测和功能注释,这也是寻找功能基因的基础和前提。这里主要记录下怎么用Braker3进行基因组的基因预测(也就是结构注释)。

在做生信分析的时候,难免会遇到一个pipeline上的软件存在冲突的情况,一般的解决方法是创建不同的conda环境,然后分别在不同的环境下跑不同的软件。这种操作可以解决环境冲突的问题但不适合写流程化的脚本,同时又非常占用空间。有的软件整合了pipeline流程的所有软件,按照顺序进行调用,这种软件虽然可以节省时间实现自动化分析,但是环境依赖的问题更加复杂,因此这一类的软件也往往提供容器来方便人们在一个封闭的环境中使用。

非编码RNA(non-coding RNA,ncRNA)指不编码蛋白质的RNA,包括rRNA、tRNA、snRNA、snoRNA 和 microRNA 等多种已知功能的 RNA,和未知功能的RNA。tRNA预测可以使用经典的tRNAscan-SE,其他类型的RNA都可以用Infernal+Rfam数据库方式预测。

前面我们注释了串联重复序列(Tandem repeat,TR),接下来是对散在重复序列(也称转座子,transposable element,TE)进行注释。注释之后我们对所有重复序列在基因组上进行屏蔽,就可以进行后面的结构基因预测和注释了。

本系列笔记开始记录如何对组装的植物基因组进行注释。前面通过一系列组装过程,我们拿到了组装好的基因组草图,而这个基因组草图只是研究的开始,我们关注的是基因组中有哪些我们感兴趣的功能基因或者结构基因,以及怎么用这些基因阐述生物学问题等等,这个时候一个高准确度的基因组注释结果就非常重要了。

基因组组装完成之后,我们就可以对基因组进行变异分析了。这里主要介绍由 Broad Institute开发的一款基因组分析工具GATK,这款工具设计之初是用于处理分析Illumina二代测序技术产生的人类全外显子和全基因组数据,经过多个版本的优化迭代,GATK集合了多种高通量测序数据处理和质控的软件,如今GATK可以说是对DNA和RNA-seq数据检测SNP和Indel的标准。

接上一篇博客,这一篇博客继续介绍一个常用的评估基因组组装质量的软件——QUAST