接上一篇博客,这一篇博客继续介绍一个常用的评估基因组组装质量的软件——QUAST
通过前面的纠错和校正步骤,我们得到了组装完成的基因组序列,接下来就是进行基因组的组装质量评估。质量评估的软件和方法比较多,这里分两篇博客记录,本篇主要演示如何用BUSCO和LAI指数评价基因组组装质量。
三代基因组de novo组装后得到一系列contig,由于三代测序的错误率较高,我们需要对组装结果进行打磨(以下均用polish表示)以提高基因组的拼接指标如Contig N50,Scaffold N50。
前段时间比较忙,现在继续整理基因组测序组装系列的学习笔记。第四篇笔记写的二代测序基因组组装,主要是演示二代测序数据组装的主流工具SOAPdenovo 2.0是如何应用的。我这里有了二代和三代的测序数据,后续组装还是以三代数据为主,这里就继续记录下几款三代测序数据组装的主流工具和用法。
最近因为需要安装各种生信软件,用github比较多,每次登github都要翻墙很是麻烦。索性花了点时间研究了一下,下面分别列举三种情况下的解决github网站登录的问题。
前面一篇博客讲了requests、Xpath和selenium的用法,最后用selenium模拟浏览器对搜狗微信文章做了自动化爬取。从搜狗微信网页爬取的公众号文章其实是不全的,不能保证公众号的所有文章都被搜狗收录,且selenium爬取速度相对较慢(但是对动态页面爬取很有用),因此可以选择另一种方式——直接从微信公众号后台进行爬取。
这篇博客承接前面的HTTP基本原理,对requests、Xpath和selenium三个库/工具做个简单介绍,并且用三个爬虫实例由浅到深理解爬虫的构思和实现过程,最后是用selenium+chromedriver模拟浏览器,实现对微信公众号文章的爬取。
以前写过一篇博客如何爬取微博热搜的前50条,当时是从代码出发理解爬虫实现的过程。这篇博客主要讲一下HTTP的基本知识,知道从浏览器中输入网址到我们获取网页内容的过程中发生了什么,有助于进一步了解爬虫的基本原理。
前面介绍递归函数的时候用到了sys模块,介绍文件操作函数的时候用到了os模块,之前只是简单说了这两个模块下部分函数的用法,这里详细介绍一下对于模块、包和库的概念,以及一些常见的模块用法。