前一篇推送分享的文献中,作者进行了多种相关性分析来说明转录组数据和ATAC-seq的相关性,本次推送围绕相关性分析展开。
生物信息学中的相关性
Fig 1
相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。举个例子,我现在有8份不同条件下的转录组数据(Sample1-8),假如我们想看一下A基因和B基因的相关性,那么在第一份转录组中A基因B基因有个表达量,找出来标在这个图上,在第二份数据中A和B也有个表达量标在这个图上,以此类推,直到把8个点标在图上,可以计算出A和B表达量之间的相关系数(Fig 1)。
相关系数介于-1到1之间,正数代表正的相关性,负数代表负的相关性:
0.8-1.0 极强相关;
0.6-0.8 强相关;
0.4-0.6 中等程度相关;
0.2-0.4 弱相关;
0.0-0.2 极弱相关或无相关。
常用的相关系数
常用的相关系数有以下三种:
(1)Pearson相关系数(PPMCC或PCCs):皮尔逊相关系数,又称皮尔逊积矩相关系数,是一种线性相关。计算两个基因表达量之间的相关性可用这种。
(2)Spearman相关系数(Spearmans rank correlation coefficient,SRCC):斯皮尔曼相关系数,是一种等级相关。计算哪些基因的表达与肿瘤的一期、二期、三期、四期相关用这种。
(3)Kendall相关系数:是一种离散型数据或分类型数据的相关性。计算哪些基因与人类性别相关用这种。
Pearson相关系数对离群值敏感,因此在计算时可以去除明显的离群值,Spearman相关系数和Kendall相关系数是基于秩/等级(也就是按大小排序)来计算,可以消除离群值的影响。
具体的计算原理可参考https://zhuanlan.zhihu.com/p/339077538
利用R语言进行相关性分析
Fig 2
Fig 2的示例数据是不同基因在不同样本中的表达量,只展示了前7行。
Fig 3
Fig 3是计算基因之间相关性的代码,不转置可计算样本间的相关性。
Fig 4
Fig 5
Fig 4和Fig 5是相关性的可视化代码及结果展示。
Fig 6
Fig 7
也可以加入显著性水平和相关系数(Fig 6-7)。
文章中相关性分析的应用
文章中的Fig4左是单细胞RNA-seq和单核ATAC-seq的相关性,右图是单核RNA-seq和单核ATAC-seq的相关性。特征是所选择的336个被亚群特异性可及性峰所影响的基因。
所以输入文件可以是这样。图中RNA代表基因的表达量,注意是该cluster的所有细胞的该基因表达量的均值,ATAC代表与该基因对应的ATAC-seq peak区域的reads信号强度,也是该cluster所有细胞的均值。
作者用的是肯德尔相关系数,所以表达量和可及性信号要分别进行归一化。