抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

前面我们注释了串联重复序列(Tandem repeat,TR),接下来是对散在重复序列(也称转座子,transposable element,TE)进行注释。注释之后我们对所有重复序列在基因组上进行屏蔽,就可以进行后面的结构基因预测和注释了。

本系列笔记开始记录如何对组装的植物基因组进行注释。前面通过一系列组装过程,我们拿到了组装好的基因组草图,而这个基因组草图只是研究的开始,我们关注的是基因组中有哪些我们感兴趣的功能基因或者结构基因,以及怎么用这些基因阐述生物学问题等等,这个时候一个高准确度的基因组注释结果就非常重要了。

基因组组装完成之后,我们就可以对基因组进行变异分析了。这里主要介绍由 Broad Institute开发的一款基因组分析工具GATK,这款工具设计之初是用于处理分析Illumina二代测序技术产生的人类全外显子和全基因组数据,经过多个版本的优化迭代,GATK集合了多种高通量测序数据处理和质控的软件,如今GATK可以说是对DNA和RNA-seq数据检测SNP和Indel的标准。

接上一篇博客,这一篇博客继续介绍一个常用的评估基因组组装质量的软件——QUAST

通过前面的纠错和校正步骤,我们得到了组装完成的基因组序列,接下来就是进行基因组的组装质量评估。质量评估的软件和方法比较多,这里分两篇博客记录,本篇主要演示如何用BUSCO和LAI指数评价基因组组装质量。

三代基因组de novo组装后得到一系列contig,由于三代测序的错误率较高,我们需要对组装结果进行打磨(以下均用polish表示)以提高基因组的拼接指标如Contig N50,Scaffold N50。

前段时间比较忙,现在继续整理基因组测序组装系列的学习笔记。第四篇笔记写的二代测序基因组组装,主要是演示二代测序数据组装的主流工具SOAPdenovo 2.0是如何应用的。我这里有了二代和三代的测序数据,后续组装还是以三代数据为主,这里就继续记录下几款三代测序数据组装的主流工具和用法。

经过前面的全基因组特征调查(survey)后,我们发现这是一个复杂基因组,杂合度较高,可以以二代+三代测序技术相结合的策略进行全基因组组装,还可以以Hi-C(高通量染色体捕获技术,High-through chromosome conformation capture)技术进行辅助组装。这里我用华大开发的二代测序组装工具SOAPdenovo,用二代测序数据对进行初步基因组组装。

之前说到如何对三代测序数据做污染评估,取随机序列做blastn比对nt库,确定物种分布情况。实际blast比对还要考虑比对的序列长度和ONT本身数据错误率,以及结合GC-depth确定是否有污染。基因组三代测序数据组装之前,我们还要做一个全基因组survey。主要是为了减少盲目性,先做低深度的基因组分析,也是初步了解物种基因组特征的有效方法,比如评估基因组大小和杂合情况,为后续全基因组de novo组装策略指定提供指导。

做完基因组三代测序数据质控之后,我们把所有reads的Q值控制在7以上,每个read的长度在1000bp以上。我们不能明确自己的测序数据是否被其他物种污染,这个时候就要用balst比对的方法确定测序数据是否被污染,以及污染的来源。