因为自己的生信基础知识比较薄弱,最近在华农跟着王老师上了一些植物基因组课程,记录一下。这一次主要结合课堂内容、MCScanX官方文档以及自己的理解,演示基因组共线性工具MCScanX的用法。
因为自己的生信基础知识比较薄弱,最近在华农跟着王老师上了一些植物基因组课程,记录一下。这一次主要结合课堂内容、MCScanX官方文档以及自己的理解,演示基因组共线性工具MCScanX的用法。
注释得到的基因集中,可能某些基因存在被转座子插入的情况,该基因会在后续功能注释的时候被注释上,但实际在基因组中该基因可能已经被插入失活。因此在基因组的功能注释前,需要用检测转座子软件(如TransposonPSI、TEsorter等)将含有转座子的基因找出并去除。
在对基因组重复序列和ncRNA进行注释后,接下来是基因预测和功能注释,这也是寻找功能基因的基础和前提。这里主要记录下怎么用Braker3进行基因组的基因预测(也就是结构注释)。
在做生信分析的时候,难免会遇到一个pipeline上的软件存在冲突的情况,一般的解决方法是创建不同的conda环境,然后分别在不同的环境下跑不同的软件。这种操作可以解决环境冲突的问题但不适合写流程化的脚本,同时又非常占用空间。有的软件整合了pipeline流程的所有软件,按照顺序进行调用,这种软件虽然可以节省时间实现自动化分析,但是环境依赖的问题更加复杂,因此这一类的软件也往往提供容器来方便人们在一个封闭的环境中使用。
非编码RNA(non-coding RNA,ncRNA)指不编码蛋白质的RNA,包括rRNA、tRNA、snRNA、snoRNA 和 microRNA 等多种已知功能的 RNA,和未知功能的RNA。tRNA预测可以使用经典的tRNAscan-SE,其他类型的RNA都可以用Infernal+Rfam数据库方式预测。
不知不觉这个小破站运行也快要一年整了,一年前网站刚开放,我天天修bug到凌晨两三点的情景还历历在目……主要还是自己对网站搭建框架不熟悉,看不懂代码整不清楚linux操作(虽然现在也没好到哪儿去)。一年过去了通过自学确实学习了很多计算机方面的知识,有空再做个总结吧~
一年前想写如何部署ssl证书的,如今一年快到了正好要续上ssl证书,这篇博客算是补档吧~记录下自己的操作
前面我们注释了串联重复序列(Tandem repeat,TR),接下来是对散在重复序列(也称转座子,transposable element,TE)进行注释。注释之后我们对所有重复序列在基因组上进行屏蔽,就可以进行后面的结构基因预测和注释了。
本系列笔记开始记录如何对组装的植物基因组进行注释。前面通过一系列组装过程,我们拿到了组装好的基因组草图,而这个基因组草图只是研究的开始,我们关注的是基因组中有哪些我们感兴趣的功能基因或者结构基因,以及怎么用这些基因阐述生物学问题等等,这个时候一个高准确度的基因组注释结果就非常重要了。
作为一个从ChatGPT公测用到现在的用户,有些无奈很难言说。本来OpenAI就不对咱们这个区域开放,使用官方的API搭建应用可以不借助VPN访问,算是解除了区域限制。但是,从2023年3月2日傍晚开始,API接口就开始没有响应了,官网没有问题,四处查询发现可能是API的域名上了GFW名单(暂不确定,有可能重大会议过去后会恢复?)。
基因组组装完成之后,我们就可以对基因组进行变异分析了。这里主要介绍由 Broad Institute开发的一款基因组分析工具GATK,这款工具设计之初是用于处理分析Illumina二代测序技术产生的人类全外显子和全基因组数据,经过多个版本的优化迭代,GATK集合了多种高通量测序数据处理和质控的软件,如今GATK可以说是对DNA和RNA-seq数据检测SNP和Indel的标准。