抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

过一段时间要到校外学习,而学校的资源只能在校园内网下才能使用(登录集群可以看到登录ip是10开头的A类地址,无法公网ip访问)。为了方便在校外访问校园内网的集群,我手里正好也有一个备案过的服务器和域名,于是自己用frp搭建了一个反向代理服务器,穿透了校园内网,这里记录下自己搭建过程。

今天接到一个任务,大致内容是在一个植物的全长转录组数据中找拟南芥的三个同源基因。简简单单的描述,我的想法也很简单,直接找基因的CDS序列做blastn比对就完事了,结果却没有那么顺利…记录一下踩的坑和解决办法。

经过前面的全基因组特征调查(survey)后,我们发现这是一个复杂基因组,杂合度较高,可以以二代+三代测序技术相结合的策略进行全基因组组装,还可以以Hi-C(高通量染色体捕获技术,High-through chromosome conformation capture)技术进行辅助组装。这里我用华大开发的二代测序组装工具SOAPdenovo,用二代测序数据对进行初步基因组组装。

之前说到如何对三代测序数据做污染评估,取随机序列做blastn比对nt库,确定物种分布情况。实际blast比对还要考虑比对的序列长度和ONT本身数据错误率,以及结合GC-depth确定是否有污染。基因组三代测序数据组装之前,我们还要做一个全基因组survey。主要是为了减少盲目性,先做低深度的基因组分析,也是初步了解物种基因组特征的有效方法,比如评估基因组大小和杂合情况,为后续全基因组de novo组装策略指定提供指导。

做完基因组三代测序数据质控之后,我们把所有reads的Q值控制在7以上,每个read的长度在1000bp以上。我们不能明确自己的测序数据是否被其他物种污染,这个时候就要用balst比对的方法确定测序数据是否被污染,以及污染的来源。

最近拿到一个植物基因组的三代和二代测序数据,想通过以三代测序数据为主,二代测序数据为辅的方式学习一下如何拼接组装一个基因组。但是三代测序数据刚到手就懵了,与之前学习的转录组分析不一样,三代测序返回的几个文件不是单纯的fq文件,于是我又开始恶补了一些三代测序的基础知识,开坑写个三代基因组测序组装的系列笔记~

接触过生物学的小伙伴对NCBI在线BLAST网页一定不陌生,简单介绍一下这个网页的5种比对工具:blastn、blastp、blastx、tblastn和tblastx,以及如何进行本地建库和blast比对。

最近在处理三代测序的下机数据,用到了一些挺好用的perl脚本,但是苦于没接触这种类型的编程语言,想根据情况改一些代码却看不懂实现方式= =

前几天老师布置了一个任务,寻找夹竹桃科Apocynaceae分类下的物种参考基因组,我在plaBiPD网站和NCBI的genome数据库中只找到包括罗布麻在内的5个已发表物种参考基因组,且都是gbff格式的。提交之后被告知需要gff格式的,因为gbf格式中没有基因相关结构的位置信息。找了一个perl脚本完成了任务。

随着各种组学技术和生物信息学技术的发展,高通量测序现在已经广泛应用到生命科学的多个领域,这些测序数据动辄几个G甚至几十上百G(主要看物种和测序深度),个人电脑对这些大量的数据处理时有些力不从心。