最近因为学校网络信息中心升级防火墙,导致集群无法访问公网,我搭建的反向代理服务器也暂时无法使用(真的想吐槽学校的网络管理员,三个星期了还没能解决集群的网络问题)……近期要进行中期答辩,先用向日葵远程一下实验室闲置的电脑应急,顺便把最近的学习笔记补上。
这篇笔记主要记录下单细胞组学的学习,以及单细胞转录组(Single-cell RNA-sequencing,scRNA-seq)的分析流程。
1. 单细胞测序发展
我们做植物高通量测序做的最多的是RNA-seq,比较不同组织、不同时期或者不同处理下同一个组织基因的差异表达。我们做RNA-seq是建立在对一个组织的细胞进行测序的基础上,而组织是几类细胞的集合,因此我们得到的基因表达量是所有细胞的平均值。
单细胞测序可以在单个细胞的水平上构建细胞图谱,让我们更深入了解植物组织的细胞类型,获取每个细胞的转录本信息,研究细胞的发育动态(比如细胞如何进行分化)等等。
Nature杂志每年都会总结每个领域最有价值的年度技术,2018年是单细胞转录组技术,2019年是单细胞多组学技术,2020年是空间转录组技术,可以看出带有单细胞和空间分辨率转录组技术应用的重要性。
上图是单细胞技术在植物中的研究历程,最后一个2022年的Stereo-seq也就是华大自研的时空组学技术,据华大发表在cell上的文章Spatiotemporal transcriptomic atlas of mouse organogenesis using DNA nanoball-patterned arrays描述,Stereo-seq的技术参数优于当前其他空间转录组技术,对空间异质性的描述更为灵敏和直观。
对于Stereo-seq我个人的理解是补上了部分空间转录组测序无法做到单个细胞分辨率的短板,真正做到对动植物的组织或者器官中的所有细胞进行转录组信息分析,鉴定不同类型细胞的差异基因表达,构建空间图谱来分辨不同细胞的发育轨迹。感兴趣可以看下面华大的这篇scStereo-seq技术用于拟南芥的文章:The single-cell stereo-seq reveals region-specific cell subtypes and transcriptome profiling in Arabidopsis leaves - ScienceDirect
2. 单细胞测序平台
10x Genomics Chromium 微流控芯片技术获得单细胞反应体系,并在传统文库构建的基础上引入标签,通过追溯标签序列将众多mRNA、表面蛋白信息定位回原来的单个细胞。捕获效率最高达65%
BD Rhapsody™ Single-Cell Analysis System 能为单细胞中每个转录本标记特异性分子标签,实现单细胞水平上基因表达谱的绝对定量。捕获效率最高达80%
Illumina® Bio-Rad® Single-Cell Sequencing Solution 捕获效率低,仅为3%,但测序成本相对较低
ICELL8 Single-Cell System 捕获效率为30%,成本相对较低
C1™ 单细胞全自动制备系统 通量低、成本高、周期慢、对试验人员要求高,操作较繁琐和困难
3. 单细胞测序分析流程
质控部分和RNA-seq没有区别,去掉低质量的读序和测序接头。10X Genomics平台测的单细胞数据需要通过Cell Ranger回比到参考基因组,示例用法如下:
1 | cellranger count --id=sample345 |
这里主要记录下细胞过滤到亚群定义和标记基因筛选所要用到的软件Seurat4。因为我自己没有这方面的实验数据,仅仅只是尝试跑下流程,以下分析流程和代码来自:
单细胞转录组|Seurat 4.0 使用指南 - 知乎 (zhihu.com)
《Seurat 4 R包源码解析》 总目录 | 单细胞转录组分析标准流程 - 知乎 (zhihu.com)
示例数据来自10X Genomics免费提供的外周血单核细胞(PBMC)数据集:
https://cf.10xgenomics.com/samples/cell/pbmc3k/pbmc3k_filtered_gene_bc_matrices.tar.gz
将示例数据上传至集群,解压,得到如下文件:
1 | ├── barcodes.tsv(10X Genomics测序的与细胞相关的barcode信息,用于标识细胞) |
- 这三个文件实际上要通过软件
Cell Ranger
对10X Genomics单细胞测序的下机数据进行比对基因组,统计捕获的细胞数、测序量得到。详细可以参考官方Cell Ranger软件的用法和结果分析,这里用的是官方整理后的数据,只进行下一步Seurat分析的演示。
以所在目录为工作目录,在linux中键入R进入交互命令行,运行Seurat。
3.1 导入数据和初步过滤
1 | # 安装和加载Seurat和dplyr(用于数据清洗)R包 |
可以看到初步过滤后,现在的一个数据集包含了2700个细胞的13714个基因。
3.2 细胞过滤
1 | # 新增一列percent.mt用于统计映射到线粒体基因组的reads百分比 |
fig01_cell_feature.png如下所示:
这里可以看到有的细胞检测到的特异基因数特别多,可能是因为多个细胞被同时捕获了,而特异基因数特别少的可能是低质量细胞。而线粒体基因比例特别高的细胞,有可能是一些快要死亡的细胞。这些低质量的细胞需要在这一步被过滤。
fig02_cell_feature_correlation.png如下所示:
这两个图分别表示了每个细胞测到所有基因的表达量之和与线粒体基因组百分比呈负相关,每个细胞测到所有基因的表达量之和与每个细胞测到的特异基因数目呈正相关。
这一步过滤后数据集剩下2638个细胞,共13714个基因。
3.3 细胞群体聚类
1 | # 表达水平标准化 |
fig03_10marker_genes.png如下所示:
这里筛选出2000个mark基因用于后续的下游分析,并且展示区分能力最强的前10个mark基因
1 | # Mark基因权重标准化 |
fig04_PCA.png如下所示:
1 | # 评估主成分维度 |
R包 Seurat 函数 JackStraw
、ScoreJackStraw
进行重采样测试,评估用以进行细胞聚类的主成分维度。
fig05_PC_importance_01.png如下所示:
fig05_PC_importance_02.png如下所示:
上图是比较不同主成分(PC)的P值分布与均匀分布(虚线);显著的主成分具有较低的P值(位于虚线上方);似乎10-12个主成分后,主成分的重要性急剧下降。
下图是肘部法则以确定最佳主成分数量,9-10个主成分附近有个拐点,表明大部分真实信号是在前10个pc中捕获的。
所以这里选择10个主成分用于后续分析。
1 | # 细胞群体聚簇 |
fig06_cluster_UMAP.png如下所示
可以看到,根据mark基因的表达,所有细胞最终被分为了8种类型。
做完以上分析之后,还可以根据自己的研究目标新型不同的下游分析,具体来说可以筛选亚群的标记基因(与其他类别细胞的差异表达基因)、进行细胞的发育轨迹分析、做不同品种间细胞类型的比较等等。