热点新闻
生信分析10:相关性的量化及可视化
2023-07-28 05:48  浏览:3260  搜索引擎搜索“混灰机械网”
温馨提示:信息一旦丢失不一定找得到,请务必收藏信息以备急用!本站所有信息均是注册会员发布如遇到侵权请联系文章中的联系方式或客服删除!
联系我时,请说明是在混灰机械网看到的信息,谢谢。
展会发布 发布信息 广告合作 软文发布






前一篇推送分享的文献中,作者进行了多种相关性分析来说明转录组数据和ATAC-seq的相关性,本次推送围绕相关性分析展开。

生物信息学中的相关性






Fig 1

相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。举个例子,我现在有8份不同条件下的转录组数据(Sample1-8),假如我们想看一下A基因和B基因的相关性,那么在第一份转录组中A基因B基因有个表达量,找出来标在这个图上,在第二份数据中A和B也有个表达量标在这个图上,以此类推,直到把8个点标在图上,可以计算出A和B表达量之间的相关系数(Fig 1)。

相关系数介于-1到1之间,正数代表正的相关性,负数代表负的相关性:

0.8-1.0 极强相关;

0.6-0.8 强相关;

0.4-0.6 中等程度相关;

0.2-0.4 弱相关;

0.0-0.2 极弱相关或无相关。

常用的相关系数

常用的相关系数有以下三种:

(1)Pearson相关系数(PPMCC或PCCs):皮尔逊相关系数,又称皮尔逊积矩相关系数,是一种线性相关。计算两个基因表达量之间的相关性可用这种。

(2)Spearman相关系数(Spearmans rank correlation coefficient,SRCC):斯皮尔曼相关系数,是一种等级相关。计算哪些基因的表达与肿瘤的一期、二期、三期、四期相关用这种。

(3)Kendall相关系数:是一种离散型数据或分类型数据的相关性。计算哪些基因与人类性别相关用这种。

Pearson相关系数对离群值敏感,因此在计算时可以去除明显的离群值,Spearman相关系数和Kendall相关系数是基于秩/等级(也就是按大小排序)来计算,可以消除离群值的影响。

具体的计算原理可参考https://zhuanlan.zhihu.com/p/339077538

利用R语言进行相关性分析






Fig 2

Fig 2的示例数据是不同基因在不同样本中的表达量,只展示了前7行。






Fig 3

Fig 3是计算基因之间相关性的代码,不转置可计算样本间的相关性。






Fig 4






Fig 5

Fig 4和Fig 5是相关性的可视化代码及结果展示。






Fig 6






Fig 7

也可以加入显著性水平和相关系数(Fig 6-7)。

文章中相关性分析的应用






文章中的Fig4左是单细胞RNA-seq和单核ATAC-seq的相关性,右图是单核RNA-seq和单核ATAC-seq的相关性。特征是所选择的336个被亚群特异性可及性峰所影响的基因。






所以输入文件可以是这样。图中RNA代表基因的表达量,注意是该cluster的所有细胞的该基因表达量的均值,ATAC代表与该基因对应的ATAC-seq peak区域的reads信号强度,也是该cluster所有细胞的均值。

作者用的是肯德尔相关系数,所以表达量和可及性信号要分别进行归一化。


发布人:97c5****    IP:117.173.23.***     举报/删稿
展会推荐
让朕来说2句
评论
收藏
点赞
转发