抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

有的时候存在这种情况:我手上有两个近缘植物的基因组测序数据,这两个物种可能没有人做过,或者别人做过但是没有提供参考基因组。而课题组因为经费不足,只测了一个物种的Hi-C(嗯,说的就是我),那如何以组装的基因组为参考,把另一个近缘物种基因组也组装到染色体级别呢?

记录一下基于近缘物种参考基因组的染色体水平组装和注释,用到的软件是RagTag以及配套的Liftoff

基因组注释(4)——基因预测这篇博客中记录了怎么用braker3进行蛋白编码基因的预测,当时为了方便安装和使用,直接下载了官方的singularity容器。用过braker3的朋友会发现,官方给的BRAKER标准运行流程中是不包括UTR区域预测的,也就是说,最后得到的gtf/gff文件中没有3’或者5’UTR区域的信息。

前排提示,以下操作是个人尝试,不保证一定正确。

串联重复序列注释这篇笔记里记录了如何用TRF软件进行TR预测,这款软件可以使用-m参数得到屏蔽后的序列,当时没写如何把Hard masking结果转换成Soft masking,这里就补个档。这两种屏蔽方式的结果文件是可以相互转换的。

前面说了如何用eggNOG-mapper快速注释功能基因,我们最后得到了很多结果文件,其中最重要的是两个annotations文件。这里主要讲一下怎么整理结果文件,并且对注释的结果做质量评估。

继续更新一下基因组注释,在基因组注释的第5篇博客中,我们已经拿到了Braker3预测的功能基因,并且删除了其中可能被TE插入而失去功能的基因。仅仅拿到这些基因CDS序列和蛋白序列肯定是不够的,我们还需要知道这些蛋白具体行使什么生物学功能。

前一篇博客主要讲了如何使用juicer进行Hi-C测序的下机数据处理,这篇博客我们按照Aiden团队的基因组组装“CookBook”继续接下来的操作,主要记录下3D-DNA软件的配置运行,以及如何手动调整结果。

前面经过三代数据结合二代数据的组装和polish,已经把基因组组装成了contigs的水平,下一步就是进一步提升到染色体水平。从实现的方式上来说有Bionano的光学图谱技术(作用是减少Scaffold数量,基因组纠错),Hi-C技术,遗传图谱以及依靠算法实现的基于近缘物种参考基因组的染色体水平组装(比如RagTag)。

注释得到的基因集中,可能某些基因存在被转座子插入的情况,该基因会在后续功能注释的时候被注释上,但实际在基因组中该基因可能已经被插入失活。因此在基因组的功能注释前,需要用检测转座子软件(如TransposonPSI、TEsorter等)将含有转座子的基因找出并去除。

在对基因组重复序列和ncRNA进行注释后,接下来是基因预测和功能注释,这也是寻找功能基因的基础和前提。这里主要记录下怎么用Braker3进行基因组的基因预测(也就是结构注释)。

非编码RNA(non-coding RNA,ncRNA)指不编码蛋白质的RNA,包括rRNA、tRNA、snRNA、snoRNA 和 microRNA 等多种已知功能的 RNA,和未知功能的RNA。tRNA预测可以使用经典的tRNAscan-SE,其他类型的RNA都可以用Infernal+Rfam数据库方式预测。