snakemake
是一款强大的工作流管理工具,用于构建和运行复杂的数据分析工作流。其工作流是基于python
语言描述的,类似于Makefile
的工作流描述语言。Makefile
指定的是源文件之间的依赖关系,以及如何将它们编译成可执行文件和库,而snakemake
指定的是数据处理过程中的依赖关系和规则,并自动化执行这些规则生成最终的输出。
snakemake
是一款强大的工作流管理工具,用于构建和运行复杂的数据分析工作流。其工作流是基于python
语言描述的,类似于Makefile
的工作流描述语言。Makefile
指定的是源文件之间的依赖关系,以及如何将它们编译成可执行文件和库,而snakemake
指定的是数据处理过程中的依赖关系和规则,并自动化执行这些规则生成最终的输出。
最近基因家族分析的文章越来越多(铺天盖地的培训班宣传),知网上几乎天天都有更新这类文章。很多的这类文章都是纯生信分析,用的公共数据库中的基因组、蛋白序列和转录组数据,最多加个qPCR验证(甚至有些文章都没有),内容没有深度比较氵。写这篇笔记并不是鼓励大家水文章,只是掌握一门分析方法,不要把这类分析看得太难,0代码基础也可以做分析。
整理一下前段时间做的基因家族分析笔记,这部分分析用的代码部分比较少,因为有现成的软件以及网站可以分析,没什么太多需要自己创造的地方,按部就班的分析流程实在让我提不起兴趣……简单记录下需要自己整理数据和写代码作图的部分——基因家族顺式作用元件预测。
经历了三个月小论文+大论文的摧残,最近终于闲下来了一点,继续更新一下学习笔记~
今天主要记录下怎么做的转录组趋势(时序)分析。大多数时候,我们的转录组数据不仅仅只有一组处理组和对照组,比如梯度实验会设置不同处理浓度,或者同一浓度处理下设置不同取样时间,来观察取样组织中基因随着浓度、时间等的变化规律,也就是进行基因表达的趋势分析。
最近用自己组装的植物基因组在做基因家族分析,简单记录下自己对数据的处理以及分析的流程。
随着现在测序技术的普及,越来越多的植物做了全基因组测序,对于基因组比较小的植物,现在纯做基因组组装和注释已经很难发文章了,一般来说我们还要再提出和解决一些生物学问题,最基础的就是通过比较基因组学,对系统发育中的代表性物种之间的基因家族进行比较分析、构建系统发育图谱,来揭示这些基因家族的起源和功能。
最近在做一个植物物种的基因家族分析,花了一周时间把能做的图都做了一遍,有空就把所有分析流程都记录一下。
先说一个蛋白性质和序列分析中碰到的问题,我这里也收录了不少蛋白类的在线分析工具和数据库,可以点击这里查看 (shelven.com),这些工具我每年会做一次更新。有的在线分析网站只能输入一条序列分析,当你手上很多序列的时候,一条条数据复制粘贴,点击提交,然后下一个页面再复制粘贴你要的数据,属实麻烦= =
有的时候存在这种情况:我手上有两个近缘植物的基因组测序数据,这两个物种可能没有人做过,或者别人做过但是没有提供参考基因组。而课题组因为经费不足,只测了一个物种的Hi-C(嗯,说的就是我),那如何以组装的基因组为参考,把另一个近缘物种基因组也组装到染色体级别呢?
记录一下基于近缘物种参考基因组的染色体水平组装和注释,用到的软件是RagTag
以及配套的Liftoff
。
在基因组注释(4)——基因预测这篇博客中记录了怎么用braker3
进行蛋白编码基因的预测,当时为了方便安装和使用,直接下载了官方的singularity
容器。用过braker3的朋友会发现,官方给的BRAKER标准运行流程中是不包括UTR区域预测的,也就是说,最后得到的gtf/gff文件中没有3’或者5’UTR区域的信息。
前排提示,以下操作是个人尝试,不保证一定正确。
在串联重复序列注释这篇笔记里记录了如何用TRF软件进行TR预测,这款软件可以使用-m参数得到屏蔽后的序列,当时没写如何把Hard masking结果转换成Soft masking,这里就补个档。这两种屏蔽方式的结果文件是可以相互转换的。
1 / 7