接上一篇博客,这一篇博客继续介绍一个常用的评估基因组组装质量的软件——QUAST
1. QUAST介绍
QUAST(Quality Assessment Tool for Genome Assemblies)是一个比较综合的评估基因组组装质量的软件,主要包括四种分析工具:
- QUAST:常规基因组组装质量评估
- MetaQUAST:宏基因组(元基因组)组装质量评估
- QUAST-LG:大型基因组组装质量评估
- Icarus:Contig比对可视化工具(类似IGV浏览器的感觉)
QUAST用到的软件如下(参考自国家微生物科学数据中心):
序列比对:Minimap2
基因和功能:GeneMarkS、GeneMark-ES、GlimmerHMM、Barrnap和BUSCO
查找结构变异:BWA、Sambamba
覆盖度计算:bedtools
MetaQUAST:MetaGeneMark、Krona tools、BLAST和SILVA数据库
QUAST-LG:KMC和Red
这个软件优点是可以使用参考基因组或者无参考基因组情况对组装的基因组进行评估,可以快速进行大批量的基因组组装质量比较,最终的结果有图表、excel和latex等多种表现形式,也有个可以交互的网页结果,非常直观和方便。
2. 安装
如果从官网下载的话,需要安装非常多的依赖软件,好消息是:可以conda安装
1 | conda install -c bioconda quast |
截至2023年3月2日,最新版本为5.2.0
后续需要安装什么软件都可以conda search
一下,能省好多功夫。注意一下conda安装之后会提醒缺两个工具和一个数据库,直接运行命令下载即可。
3. 运行实例
以我的植物基因组跑一个常规基因组组装质量评估的例子:
1 | !/bin/bash |
QUAST输入文件只有组装的基因组是必须的,同时也支持三代测序--pacbio
、--nanopore
数据,也支持二代数据输入。我这里同时输入了二代数据,因此结果文件中有组装基因组的质量评估,也有二代数据回贴组装基因组的分析数据。
4. 结果展示
运行结束后的输出日志如下:
最终生成图表结果可以在report.pdf中找到,也可以看report.html,一次运行时常大约为6小时:
左边红框框起来的部分就是二代数据回比基因组的结果,mapping率高于100%说明有多比对,完美比对率(配对reads中两条序列比对上同一个参考基因组序列的比例,Properly Paired)93.45%,覆盖度(coverage)98.63%。这个比对率说明二代测序reads与组装的基因组有较高的一致性(Properly paired 90%以上,coverage 95%以上),可以进行后续的分析。
右边是contig长度累积图,横坐标从左到右contig长度依次减小,曲线越陡表明大片段越长、数量越多,也可以看到基因组组装的连续性良好。
左上角contig的具体数据,以及N50、GC含量可以在transposed_report.txt
中查看,同时也提供了latex和excel格式的结果文件,非常贴心~或者可以在basic_stats
文件夹中查看相应的pdf图表:
Nx图横轴是Nx百分比,比如50就是N50;纵轴是contig长度。这张图也可以反映组装结果的连续性。
最后是icarus网页结果,前面说这个界面有点像IGV。。。总之就是将各个contig从长到短组装情况可视化的工具,可以拖动底下的黄色框左右移动来查看对应的contig情况。
在基因组组装质量评估方面,这个软件就可以一次给出序列一致性、组装完整性和测序覆盖均匀性评估,还是非常方便的~当然,如果你有参考基因组的话,就可以得到更多有效的评估信息。