影响因子:8.786
研究概述:
阿尔茨海默病(AD)是一种严重的进行性神经退行性疾病,其特征是淀粉样蛋白-β(Abeta)斑块过度积累,神经功能障碍和认知障碍。本文采用ssGSEA、LASSO回归和WGCNA算法详细地评估AD患者的免疫微环境模式,使用SHAP和LIME算法分析机器学习模型的结果。接着使用了四个单独的GEO数据库进行外部验证,并根据区分基因的表达确定了免疫微环境的不同亚型。随后使用无监督聚类估计免疫微环境的亚组,对这些亚型之间的免疫微环境、增强功能和途径以及治疗药物的变化进行了进一步的研究。最后,使用AlzData和泛癌数据库以及RT-PCR分析验证了特征基因的表达。
流程图:
研究结果:
一、免疫细胞浸润
作者比较了组合数据集中每组28个免疫细胞亚群的富集评分差异:AD患者中B细胞浸润率较高,包括活化B细胞,未成熟B细胞和记忆B细胞。同时,AD患者表现出较高的T细胞评分,包括中枢记忆CD4+T细胞、效应记忆CD8+T细胞、自然杀伤T细胞、调节性T细胞、1型T辅助细胞和17型T辅助细胞。自然杀伤细胞,巨噬细胞,肥大细胞,MDSC,中性粒细胞和树突状细胞在AD患者中也有更高的细胞评分(图2A,B)。
作者评估了GSE122063中28个免疫细胞评分的差异。结果显示,除活化B细胞、活化CD8+T细胞、CD56bright自然杀伤细胞、中枢记忆CD8+T细胞、γδT细胞、2型T辅助细胞外,其余22个免疫细胞富集评分在对照组和AD组之间表现出显著差异(图2C,D)。
结合以上结果,作者最终在AD患者中鉴定了13种差异表达的免疫细胞,包括中枢记忆CD4 T细胞,效应记忆CD8 T细胞,未成熟B细胞,巨噬细胞,肥大细胞,MDSC,记忆B细胞,自然杀伤细胞,自然杀伤T细胞,中性粒细胞,浆细胞样树突状细胞,调节性T细胞,1型T辅助细胞和17型T辅助细胞,表明浸润免疫细胞的改变与AD病理密切相关。
作者使用LASSO回归算法,从上述13个免疫细胞亚群中最终确定了6个系数非零的最优的与AD进展相关的特征性免疫细胞(浆细胞样树突状细胞、17型T辅助细胞、未成熟B细胞、自然杀伤细胞、MDSC和中性粒细胞)(图2E-G)。
二、免疫微环境相关 DEGs 的鉴定
- 根据组合数据集的表达谱进行WGCNA,确定AD患者中与上述六种特征性免疫细胞亚型相关的核心模块。根据PickSoftThreshold函数将软阈值b设置为4时,无标度拓扑网络和连通性最有效(图3A)。通过分层聚类算法将聚类树分为11个不同颜色的基因模块(图3B)。
2.绿黄色模块(986个基因)与未成熟B细胞(R=0.67),MDSC(R=0.72)、自然杀伤细胞(R=0.75)、中性粒细胞(R=0.34)和17型T辅助细胞(R= 0.64)的正相关性最高。而蓝色模块(2426个基因)与未成熟B细胞(R= -0.7)、MDSC (R= -0.62)、自然杀伤细胞(R= -0.68)、中性粒细胞(R= -0.59)、17型T辅助细胞(R= -0.73)呈最高负相关(图3C)。
- 因此作者选择绿黄和蓝色模块内的基因进行进一步分析。经过交叉最终从ImmPort和innateDB数据集中鉴定出26个由绿黄模块相关基因、AD、免疫相关基因共享的免疫微环境相关的DEGs(图3D)。此外,我们还在蓝色模块中确定了5个与免疫微环境相关的DEG(图3E)。
- 与这31个免疫微环境相关DEG的表达水平相比,对照组和AD组之间产生了独特的免疫微环境特征。AD患者的HSP90AB1和PPP3R1表达水平明显低于非AD对照组,其余29个DEG在AD患者中的表达水平明显高于非AD对照组(图3F,G),表明这些免疫微环境相关的DEGs可能与AD进展密切相关。
三、免疫微环境相关DEG的相关性和功能富集分析
- 作者根据基因表达数据描绘了31种与免疫微环境相关的DEGs相互作用的综合景观,并确定了4种不同的模式。这些DEGs大多数表现出较强的协同效应(图4A)。
2. 31种与免疫微环境相关的DEGs与28种免疫细胞亚群之间的相关性模式结果(图4B)一致强调了这些免疫微环境相关的DEGs与免疫细胞显著相关,表明免疫微环境的改变可能是促进AD进展的重要病理生理机制。
- 功能富集分析显示,这些免疫微环境相关DEGs主要富集在生物学功能上(图4C)。KEGG富集分析表明,免疫介导的信号通路、多种人类疾病、经典信号通路等与这些免疫微环境相关的DEGs密切相关。(图4D)
四、机器学习模型的开发和估计
1.为了确定预测AD的最佳机器学习模型,作者将组合数据集中436个样本(247个正常样本和189个AD样本)随机分为训练队列(70%,N=305)和测试队列(30%,N=131)。选取31个免疫微环境相关DEG的表达谱作为输入变量,建立XGBoost、CatBoost、SVM、LightGBM、LR和RF等6个机器学习模型来预测结果。
2.训练队列中,多个机器学习模型(准确率、AUC、召回率、精度、F1、kappa和MCC)在训练队列中的表现如下图S2A所示。LightGBM模型的准确率(0.797)、AUC(0.858)、召回率(0.736)、精密度(0.792)、F1(0.759)、kappa(0.585)和MCC(0.591)最高。SVM模型精密度(0.731)最低,AUC(0.808)最低。
- 测试队列中,XGBoost 模型性能最佳,其AUC值为0.86 (CatBoost: 0.84, SVM: 0.80, LightGBM: 0.85, LR: 0.76, RF: 0.80), P-R值为0.83 (CatBoost: 0.83, SVM: 0.77, LightGBM: 0.82, LR: 0.68, RF: 0.76)(上图S2A-E和下图5A-C)。
4.计算准确性、召回率、精密度、F1、kappa 和 MCC后,图5C结果显示XGBoost模型优于其他模型,LightGBM模型性能次之。因此,后续预测选择XGBoost和LightGBM模型。
五、机器学习模型的全局和局部解释
1.通过SHAP值阐明每个特征变量对预测模型的影响。基于 XGBoost 模型的 SHAP 汇总图对特征变量的重要性排序表明,对 XGBoost 模型贡献最大的前 5 个变量是 CXCR4、PPP3R1、HSP90AB1、CXCL10 和 S100A12(图6A)。
- 采用 SHAP 依赖分析来描述单个特征变量如何影响 XGBoost 预测模型的结果(图 6B)。特征变量的 SHAP 值越高,AD 的可能性就越大。
3.LightGBM模型中最重要的5个变量与XGBoost模型中的变量一致(图6C)。SHAP 依赖分析也用于解释每个特征变量对 LightGBM 模型输出的影响(图6D)。
- 图6E-I介绍了关于影响XGBoost模型结果的前5个免疫微环境相关DEG的更详细信息。总体而言,PPP3R1和HSP90AB1的低表达水平对AD的发展有重要影响,此外,高水平的CXCR4,CXCL10和S100A12与AD进展密切相关。
采用SHAP和LIME算法,通过从测试集中抽取患者和正常人来解释AD的个体化预测。SHAP中,粗体数字对应于概率预测(f(x)),基值表示没有模型输入的预测。右侧的蓝色条表示正常预测,左侧的粉红色条表示 AD 概率增加的预测。
图7A、C分别为基于SHAP力图和LIME算法的正常情况。
①基于XGBoost模型预测AD概率为11%。
②XGBoost模型预测增强AD发病的特征变量是:IL1R2表达1.18,CXCL2表达1.01,IL4R表达1.69,TNFAIP3表达2.26,C5AR1表达1.17。
③降低AD风险的特征变量包括CXCR4,PPP3R1,CXCL10,GBP2和S100A12。
④XGBoost 模型是当前样本预测结果的对照,与样本的实际结果一致。
- 图7B、D分别为基于SHAP力图和LIME算法的AD案例。
①基于 XGBoost 模型的预测AD 概率为 94%。
②患者CXCR4(4.86)、NFKBIA(4.89)、PPP3R1(3.00)、HSP90AB1(4.47)、IL4R(1.79)升高导致AD风险增加,而S100A12(1.97)、CXCL10(0.76)、IL1R2(1.92)、FCER1G(0.34)、IFITM1(4.36)表达可降低AD风险。
③XGBoost模型的预期输出是AD,实际结果也是AD。
- 图7E描述了测试队列中所有正常和AD脑组织样本的全局解释。
六、特征基因的选择和验证
基于平均SHAP值,作者交叉了XGBoost和LightGBM预测模型中的前5个特征变量,最终确定了两模型共有的5个特征基因(CXCR4,PPP3R1,HSP90AB1,CXCL10和S100A12)。
利用ROC曲线分析评估每个特征基因在内部数据集中预测AD进展的诊断能力。
训练集中ROC曲线的AUC值CXCR4为0.792,PPP3R1为0.713,HSP90AB1为0.678,CXCL10为0.647,S100A12为0.667(图8A)。
测试集中ROC曲线的AUC值CXCR4为0.774,PPP3R1为0.697,HSP90AB1为0.687,CXCL10为0.645,S100A12为0.648(图8B)。
联合集中ROC曲线的AUC值CXCR4为0.787,PPP3R1为0.707,HSP90AB1为0.681,CXCL10为0.645,S100A12为0.661(图8C)。
3.另外使用三个外部验证数据集,进一步验证这五个特征基因的诊断效果(图8D-F)。
通过这五个特征基因来构建AD发展预测工具,即列线图,每个特征变量的值与一个分数点相关,将所有特征变量的得分相加得到总得分,代表AD发病风险(图8G)。
校准曲线证实了列线图诊断AD的准确性(图8H)。DCA显示列线图的临床应用为AD患者带来了一定的临床益处(图8I)。
七、AD患者免疫微环境中的亚型的鉴定
1.为阐明AD中免疫微环境相关的表达模式,作者采用共识聚类算法,根据5个特征基因对189个AD脑组织样本进行分组。基于结果、CDF 图、CDF 曲线面积的相对变化和一致的聚类评分,选择 k = 2 作为最佳值,将 189 名患者分为两种不同的亚型,其中亚型 1有112 个样本,亚型2有 77 个样本(图 9A–D)。
2. tSNE分析表明亚型1和2之间存在明显差异(图9E)。亚型之间9个特征基因的表达存在明显的异质性(图9F)。差异分析表明,在亚型1和2之间发现了1055个上调和609个下调的DEG(图S3)。
作者使用MSigDB数据库中的基因集来描述丰富的生物功能和信号通路,并进行GSVA以估计每位患者的评分:在亚型1中,与免疫应答相关的生物学功能高度富集,包括肥大细胞活化、免疫应答、细胞趋化性、细胞因子介导的信号通路和炎症反应(白细胞细胞迁移、趋化性和粘附);亚型2的生物学功能主要参与囊泡的转运、代谢过程、氧化磷酸化和线粒体内膜的组织。
与此一致,亚型1富集的途径始终与免疫应答相关,包括B细胞受体信号通路,细胞因子-细胞因子受体相互作用,肠道IgA的产生,缺口信号通路和TGF-β信号传导。而在亚型2中,神经退行性疾病和代谢相关途径被激活。
八、免疫微环境亚型间免疫特征的鉴别
1.首先比较了每个亚型内28个免疫细胞亚群的差异。
与亚型2组相比,亚型1组患者的T细胞浸润率更高,包括中枢记忆CD4+T细胞、中枢记忆CD8+T细胞、效应记忆CD4+T细胞、自然杀伤T细胞、调节性T细胞、1型T辅助细胞和17型T辅助细胞。
同时,包括活化B细胞、未成熟B细胞和记忆B细胞在内的多个B细胞,以及包括自然杀伤细胞、巨噬细胞、肥大细胞、MDSC、中性粒细胞在内的先天免疫细胞在亚型1组的免疫微环境中也有较高的富集评分(图10A,B)。
- 关于每个亚型之间免疫特征的差异(图10C)。
在亚型1中,所有免疫共刺激基因和几乎所有与抗原呈递和细胞粘附相关的免疫基因都始终高表达。同时,亚型1也表现出免疫共抑制剂,配体,受体和其他相关基因的表达增强。
- 此外,还比较了每种免疫微环境亚型的免疫评分,亚型1患者的免疫评分高于其他亚型(图10D)。结合上述结果最终将亚型1确定为免疫亚型,亚型2为代谢亚型。
九、相关性分析和治疗靶点预测
1.为进一步探索这5个特征基因的功能,作者利用外部数据集GSE106241(其中包括更详细的临床信息)来阐明这些特征基因与AD病理生物标志物之间的相关性。HSP90AB1与α分泌酶活性(R=-0.37),β分泌酶活性(R=-0.46)和AD临床分期(R=-0.28)呈负相关(图11A-C)。而CXCL10与β分泌酶活性呈正相关(R=-0.46)(图11D)。
2. PPP3R1也表现出与α-分泌酶(R =-0.32),β-分泌酶(R=-0.57),γ-分泌酶(R=-0.37)和Aβ-42水平(R=-0.28)的活性负相关(图11E-H)。
此外,图11I描述了有关这五个特征基因的其他信息,例如蛋白质-蛋白质相互作用,预测转录因子,miRNA和针对这五个特征基因的多种药物。最后使用CMap探索靶向免疫亚型1和代谢亚型2的潜在治疗药物。
小分子化合物的CMap评分越低,它就越有可能具有治疗疾病的能力。MK-866、花生四烯基三氟甲烷、TTNPB、伏立诺他和 STOCKIN-3584 是亚型 1 中 CMap 评分最低的前五种小分子化合物(图 11J),而 TTNPB、Butein、PHA-00816795和 STOCKIN-3584 是代谢亚型 2 相关的小分子化合物(图 11K)。亚型1和亚型2共享三种常见的小分子化合物,包括花生四烯基三氟甲烷,TTNPB和STOCKIN-3584。CMap评分表明,MK-866和花生四烯基三氟甲烷分别是靶向免疫亚型1和代谢亚型2的最佳治疗药物。
十、特征基因差异表达的外部验证
1.利用在线工具AlzData数据库,与正常对照组相比,AD患者海马体和皮质组织中CXCR4的表达显著增加,而HSP90AB1和PPP3R1的表达明显降低。
2.在AD患者的颞叶皮层和额叶皮层中也观察到CXCL10表达的显著增加。但正常人与AD患者在不同大脑区域中S100A12的表达差异并不显著(图12A-E)。
3.在20种癌症类型和相邻正常组织之间进行泛癌分析,CXCR4、PPP3R1、HSP90AB1、CXCL10和S100A12的表达水平在多种类型的癌组织中显著升高(图12F)。
4.在与33种癌症类型的患者生存显著相关的特征基因中,所有特征基因都与至少三种癌症类型的患者的总生存期密切相关(图12G)。
- 最后进行RT-PCR分析验证这5个特征性免疫微环境相关基因的表达谱。与脑组织样本数据集的结果类似,CXCR4、CXCL100和S100A12在AD皮质神经元中的表达水平明显更高,而HSP1AB3和PPP1R12基因表达显著下调(图12H)。
研究总结:
本研究解释了免疫微环境状态与AD发病机制之间的紧密关系。作者从六种中选择两种较优的机器学习方法,LightGBM和XGBoost,使用SHAP和LIME算法解释机器学习模型,鉴定出5个免疫微环境相关的特征基因(CXCR4,PPP3R1,HSP90AB1,CXCL10和S100A12),这些基因与AD病理生物标志物密切相关,能够可靠地预测AD的进程。
此外,基于这些特征差异基因,本文为AD提出了一个全新的分子分类,包括免疫和代谢亚型。每种亚型都显示出不同的富集功能和途径、免疫细胞浸润、免疫学特征和治疗药物。这些结果为脑组织中免疫微环境与AD患者预后和分类之间的关系提供了新的视角。