糖尿病康复,内容丰富有趣,生活中的好帮手!
糖尿病康复 > 机器学习助力:脑脊液蛋白质组学揭示AD潜在生物标记

机器学习助力:脑脊液蛋白质组学揭示AD潜在生物标记

时间:2022-09-18 02:35:10

相关推荐

机器学习助力:脑脊液蛋白质组学揭示AD潜在生物标记

以下文章来源于爱脑学院服务平台,作者张夏夏

杂志:molecular systemsbiology作者:Jakob M Bader, et al.时间:

June

摘要:

神经退行性疾病对社会和家庭的负担越来越大,迫切需要更好的生物标志物来诊断、预后和治疗效果。脑结构和功能的改变反映在脑脊液(CSF)的蛋白质组成上。阿尔茨海默病患者的脑脊液中tau水平较高,但我们对伴随阿尔茨海默病的脑脊液蛋白水平缺乏全面系统的了解。

在这里,我们提出了一个基于质谱的高度可重复的蛋白质组学工作流程,用于从最少量的样品中深入分析脑脊液。从三项独立的研究(197名个体)中,我们通过阿尔茨海默病状态(>1000个蛋白质,CV< 20%)来表征蛋白质的差异。先前与神经变性有关的蛋白质,如tau、SOD1和PARK7在AD和非AD间差异最大,为我们的方法提供了强有力的阳性对照。阿尔茨海默病中脑脊液蛋白质组的变化被证明是广泛存在的,并且通常与tau浓度相关。我们无偏见的筛查结果还与近期最新研究在糖酵解特征中表现出一致性。且机器学习表明该蛋白质组学特征的临床实用性。

一、前言

阿尔茨海默病(AD)是老龄人口中发病率最高的疾病之一,且随着老龄化社会进程加剧,发病人数增长迅速。

阿尔茨海默病患者通常表现为记忆障碍和日常生活活动困难。然而,该疾病在潜伏期及发病初期临床症状并不明显,症状可能在基础病理开始几十年后出现,包括淀粉样斑块的沉积和神经原纤维缠结的发展,因此难以及早干预和及早治疗。

生物标志物已经成为在记忆丧失开始之前定义是否患有痴呆的重要诊断工具。虽然已经提出了一个基于β淀粉样蛋白沉积、病理性tau和神经变性(ATN)来定义AD的研究框架,但AD的临床标准并没有统一标准化,范围从临床表现到MRI和PET的脑成像,再到脑脊液中Aβ1-42/Aβ1-40、总tau(t-tau)和磷酸化tau(p-tau181)的临床化学分析都有涉及。

目前基于质谱(MS)的蛋白质组学已经成为分析蛋白质丰度水平、修饰和相互作用的一项非常强大的技术,在生物和生化研究(包括神经科学)中有了重要的发现。但在体液中由于各种技术和概念上的限制,质谱无法得到很好地进展,影响了重复性、稳定性以及一致定量的蛋白质数量。

但随着数据非依赖性采集技术(DIA)的发展,使得体液蛋白组学实现有了可能。DIA是一项可无偏向性采集质谱扫描范围内的所有信号,实现真正的信息全息扫描。是大队列样本生物标志物研究的优选方法之一,具有全息扫描、高重现性、稳定性、高准确度以及可追溯性四个特点。

二、方法

纳入了三个队列的脑脊液样本,一组来自瑞典,一组来自德国的马格德堡和基尔,还有一组来自柏林。每个队列分为AD和非AD组。除基尔队列外,其他队列都包含脑脊液中临床AD生物标志物t-tau、p-tau181、Aβ1–42和Aβ1–40的测定情况。

为了对从三个队列获得数据能够进行统一的分析,我们根据瑞典,马格德堡和柏林人群的t-tau,Aβ1–42和Aβ1–40的脑脊液浓度,统一标准化了不同队列的AD分类标准。因此,在本研究中倘若满足:t-tau浓度大于400 ng/l,以及Aβ1–42小于550 ng/l或Aβ1–42/Aβ1–40比值<0.065的其中一个条件的被试则被诊断为AD患者,否则将被归类为非AD患者。

蛋白组学的工作在我们血浆蛋白质组谱工作流程的基础上,对CSF的样品制备进行了优化。生物信息学分析首先使用Perseus中的一维富集工具分别为每个队列进行注释术语的富集,之后使用Perseus中的内置工具进行层次聚类分析。

在R Studio中计算三个样品的所有板间和板内组合的变异系数(CV),其中位数被报告为总体变异系数。线性回归分析我们使用了R来计算,并在两个模型中评估了log10转化后的蛋白强度与AD状态、与临床ELISA测量的CSFt-tau浓度的相关性,并将年龄、性别和队列(瑞典、马格德堡/基尔或柏林)作为协变量进行了调整。为了比较分类变量(AD状态、性别)和连续变量(年龄、t-tau浓度[log10])的估计值,将连续变量的估计值乘以变量的四分位数范围(IQR)进行绘图

所有机器学习数据处理均在Python(3.7.3)中完成。

三、主要结果

队列

纳入三个独立的队列,分别来自瑞典,马格德堡、基尔和柏林。每个队列包括大约30名AD患者和大约30或50名对照,总计197人。三个队列总体中位年龄为70.0岁,但基尔亚队列中16名非阿尔茨海默病对照患者的年龄更小,平均为32.0 岁。

AD划分标准

对三个队列197名被试进行划分,发现在不同队列当中AD的分离程度不同。其中在瑞典和马格德堡两个队列当中,AD和非AD的分离效果较好。然而,在柏林队列中,AD组和对照组在脑脊液Aβ 1–42方面有一定程度的重叠,在t-tau方面略有重叠。但与临床诊断相比,马格德堡临床被定义为AD的26例病例中,25例在我们制定的AD分类标准中被定义为AD,28例非AD均定义为非AD。且在柏林队列中,根据我们制定的AD分类标准中,33例根据临床生化指标定义的AD病例中,24例临床诊断为AD,而非AD对照组没有一例临床诊断为AD。其中对于没有临床诊断的9例生化定义的AD病例中的3例,在接下来2年内都发展为临床AD,表现为轻度的AD类型的认知缺陷,或者是一种“尚未明确的神经退行性疾病”。

蛋白组学数据质量评估

首先对鉴定结果从蛋白鉴定水平进行质量评价。每个样本平均检测到蛋白1233个,约50%的样本能够重复检测到蛋白1288个,占总蛋白的87%(总蛋白1484)。并且量化的蛋白质强度跨越六个数量级,其中最丰富的前十个蛋白质占我们数据集中全部1484个蛋白质总蛋白质强度的65%。此外从蛋白变异系数(CV)进行质量评价,通过变异性分析发现,约1000种蛋白的定量波动性低于20%。以上结果表明实验具有高度重复性和定量稳定性。

三个队列差异蛋白一致性分析

在瑞典和马格德堡/基尔队列中,AD都与显着的脑脊液蛋白质组改变相关,分别有540和453个蛋白质在AD状态下存在显着差异(P<0.05)。这些变化包括上调和下调的蛋白质,在这两项研究中,重要蛋白质的绝对折叠变化的中位数约为1.3倍。在柏林队列中,AD和非AD CSF之间的蛋白质组改变较小,只有168个蛋白质呈现显着(P<0.05)不同的丰度,这一发现与柏林队列中基于临床AD CSF生物标记物的AD组和非AD组的生化分离减少是一致的。

之后我们对瑞士、柏林、马格德堡三个队列的蛋白质组学结果分别进行统计及差异比较,以考察不同来源队列差异蛋白的一致性。此外,我们看了 AD和非AD 脑脊液之间蛋白质水平的定量变化。结果表明三个队列虽有地域差异,但是AD与非AD病人差异表达的蛋白大多数一致性较好。

AD组与非AD组区分效果

对队列中的蛋白质(1484个)强度进行Z评分后,无监督的聚类可以清楚地将这三个队列中的AD和非AD组分开,而与是否来源于某个区域无关。并且鉴定到三个队列交集得到40个蛋白质。此外我们看了具体研究AD当中年龄和性别对这40个蛋白的影响,我们采用了线性回归模型。以这种方式校正年龄和性别后,发现40蛋白质的丰度仍然在很大程度上取决于AD状态。有趣的是,在本研究人群中,与女性相比,男性脑脊液蛋白质组改变的幅度较小。

差异蛋白与t-tau、MMSE相关性

40种蛋白质中的29种与t-tau显着相关,在这三组中的每一组中,变化的方向性也与预期一致,在对包括所有三个队列的线性回归模型中的年龄、性别和队列进行调整后,所有40种蛋白质都与t-tau显着相关。这些蛋白中的一些,包括果糖-二磷酸醛缩酶A(ALDOA)、超氧化物歧化酶1(SOD1)和YKL-40/几丁质酶3样蛋白1(CHI3L1),先前已被报道与脑脊液t-tau水平呈正相关。

AD 脑脊液中丰度较高的蛋白与MMSE评分呈负相关,反之亦然,表明脑脊液蛋白信号与生化定义的阿尔茨海默病也与认知能力有关。

功能注释结果

为了确定AD相关蛋白质改变中的生物学特征,我们进行了注释富集分析,获得了21个P值低于0.05的注释词,所有这些词在三个队列中都显示出一致性。包括“神经元投射”和“神经元分化调节”在内的术语强调了AD CSF蛋白质组中的神经元特征。有趣的是,在这项无偏见的分析中,糖酵解和糖异生是AD CSF中富集的首要术语。

此外我们工作中识别的AD相关蛋白信号在一项完全独立的Higginbotham研究中得到了验证,该研究使用了独立的队列和不同的实验策略。并且在我们发现的40个蛋白质中,38个蛋白质包含在这项相似的独立研究的数据集中,而相似研究在AD和对照组之间的528个蛋白质差异显着(P<0.05)的数据集中,其中26个蛋白质与在本研究中发现的38个匹配的潜在AD标志物重叠,所有26个蛋白质都与AD或非AD CSF有一致的相关性。

机器学习

评估在我们和Higginbotham研究之间重叠的26个核心蛋白的MS强度是否可以用于使用机器学习对参与者进行AD状态分类,并探索了各种机器学习模型。我们发现,基于集成方法的分类器达到了高特异度(87%)和灵敏度(82%),同时显示了良好的泛化能力。

有趣的是,tau,一种糖酵解相关蛋白,以及一种免疫因子被机器学习算法选为最重要的分类特征,进一步证明了我们的生物标志物小组和生物标记物识别途径的有效性。模型还表明,额外和更统一的训练数据可以进一步提高诊断性能。此外,额外的临床数据,如认知评估,也可以纳入这个框架。

四、总结

在本篇文章当中介绍了一种标志物筛选的新策略-矩阵策略,利用DIA全息扫描蛋白质组学技术进行脑脊液(简称CSF)深度蛋白质组学分析,实现了大队列高通量检测,寻找到阿尔兹海默病的疾病的新型诊断标志物,这为未来神经退行性疾病的生物标记物研究奠定了基础。对早期诊断、预后和治疗效果的生物标志物的需求很大。

编译者:北京师范大学认知神经科学与学习国家重点实验室研究生 张夏夏为进一步增进脑健康相关研究领域学者交流,我们开设了“CNH(脑认知与健康学会)学习群”系列微信群,本领域众多大咖汇聚于此,定期为大家奉献精彩线上讲座,并在群内提供答疑互动。有意加入我们的同道请添加爱脑学院联络官为好友,验证通过后可获取微信学习群入群渠道。添加爱脑学院联络官为好友获取入群渠道

公众号:brainnews白色世界

● 关注AD/PD前沿资讯

添加管理员微信号brainnews009,加入全国AD/PD研究者家园,与800名研究者一起交流学习

如果觉得《机器学习助力:脑脊液蛋白质组学揭示AD潜在生物标记》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。