抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

今天接到一个任务,大致内容是在一个植物的全长转录组数据中找拟南芥的三个同源基因。简简单单的描述,我的想法也很简单,直接找基因的CDS序列做blastn比对就完事了,结果却没有那么顺利…记录一下踩的坑和解决办法。

经过前面的全基因组特征调查(survey)后,我们发现这是一个复杂基因组,杂合度较高,可以以二代+三代测序技术相结合的策略进行全基因组组装,还可以以Hi-C(高通量染色体捕获技术,High-through chromosome conformation capture)技术进行辅助组装。这里我用华大开发的二代测序组装工具SOAPdenovo,用二代测序数据对进行初步基因组组装。

之前说到如何对三代测序数据做污染评估,取随机序列做blastn比对nt库,确定物种分布情况。实际blast比对还要考虑比对的序列长度和ONT本身数据错误率,以及结合GC-depth确定是否有污染。基因组三代测序数据组装之前,我们还要做一个全基因组survey。主要是为了减少盲目性,先做低深度的基因组分析,也是初步了解物种基因组特征的有效方法,比如评估基因组大小和杂合情况,为后续全基因组de novo组装策略指定提供指导。

做完基因组三代测序数据质控之后,我们把所有reads的Q值控制在7以上,每个read的长度在1000bp以上。我们不能明确自己的测序数据是否被其他物种污染,这个时候就要用balst比对的方法确定测序数据是否被污染,以及污染的来源。

最近拿到一个植物基因组的三代和二代测序数据,想通过以三代测序数据为主,二代测序数据为辅的方式学习一下如何拼接组装一个基因组。但是三代测序数据刚到手就懵了,与之前学习的转录组分析不一样,三代测序返回的几个文件不是单纯的fq文件,于是我又开始恶补了一些三代测序的基础知识,开坑写个三代基因组测序组装的系列笔记~

接触过生物学的小伙伴对NCBI在线BLAST网页一定不陌生,简单介绍一下这个网页的5种比对工具:blastn、blastp、blastx、tblastn和tblastx,以及如何进行本地建库和blast比对。

前几天老师布置了一个任务,寻找夹竹桃科Apocynaceae分类下的物种参考基因组,我在plaBiPD网站和NCBI的genome数据库中只找到包括罗布麻在内的5个已发表物种参考基因组,且都是gbff格式的。提交之后被告知需要gff格式的,因为gbf格式中没有基因相关结构的位置信息。找了一个perl脚本完成了任务。

随着各种组学技术和生物信息学技术的发展,高通量测序现在已经广泛应用到生命科学的多个领域,这些测序数据动辄几个G甚至几十上百G(主要看物种和测序深度),个人电脑对这些大量的数据处理时有些力不从心。

前面介绍了如何找到差异基因,我们通过R包DESeq2获得了差异表达基因,在此基础上做了更为直观的火山图和差异表达基因热图。但是仅仅知道差异表达基因的名字还不够,我们还要知道它到底有哪些功能和特征,就比如我看到一个很养眼的动漫角色,我就要去查查出自哪部番,是怎么样的人设和背景故事,一样的道理。这里简单记录下如何使用AnnotationHub,以及怎么进行GO\KEGG富集分析。

前面说到怎么用ggplot做一个火山图来查看各个基因的表达情况,火山图是以log2FC值为横坐标,以-log10(FDR)值作为纵坐标,将所有的基因都做了点状图。虽然能比较直观地看到所有基因表达情况,但我们真正感兴趣的是处理后差异表达的基因。因此,我们也可以通过前面得到的表达矩阵获得差异表达的基因名,对raw count数据进行提取和均一化,然后做一个差异基因的热图,能更直观地看到差异基因在各个样本中的上调下调情况。