机器学习(ML)是一种当代人工智能技术。这些方法在医学领域呈指数级增长,特别是在诊断和疾病预测方面。本研究旨在建立一种预测老年阿尔茨海默病(AD)的决策树模型。本文考虑了150个受试者和373次磁共振成像的人口统计学值。采用剪枝决策树(J48)对AD受试者进行预测分析。采用交叉折叠(k = 10)方法进行模型验证。通过准确性、精密度和受试者工作特征(ROC)曲线评估绩效指标。结果准确性为88.7%,精密度为86.7%,ROC为91.8%。
机器学习,AD,交叉验证,决策树,ROC
有一些既定的计划和建议的医疗实践的一些外部检查和硬编码到他们的软件。然而,由于这些程序是由不同的人和不同的条件生成的,因此限制了数据的精度。痴呆症是全球需求很高的医疗问题之一。大多数研究都与痴呆症的原因有关,解释了风险降低、早期药物治疗和老年人中立即发现的疾病。因此,必须对这些疾病进行一些高级研究。
一般来说,轻度认知障碍(MCI)的受试者是治疗的相关群体,因为他们处于前驱症状阶段,患阿尔茨海默病(AD)的风险更高。阿尔茨海默病和不同类型的痴呆正成为一个全球性的挑战,在美国每三个老年人中就有一个死亡。虽然这些疾病的原因还没有被完全了解,但它们可以有效地影响话语、记忆和其他基本的心理能力。
机器学习(ML)是一种算法,它允许软件应用程序在结果预测方面变得更准确,而无需显式编程[1]。这些方法的基本前提是构建能够接收输入数据并使用统计分析预测输出的算法。如今,很难将这些技术排除在外,因为它们大多用于实时目的,许多研究人员认为这是一种理想的方法,可以为人类级别的人工智能(AI)奠定基础[2,3]。此外,ML方法类似于数据挖掘,两者的预测算法都需要数据探索来搜索示例,并以相同的方式改变程序活动[2,4]。最近,这些技术在医疗领域逐渐增加,用于预测或可视化患者数据[5],发展医疗诊断案例研究[6,7]。目前主要集中在MRI人口统计数据的帮助下进行老年AD的检测,并利用特征特征对AD的预测进行评估。采用剪枝决策树(J48)模型进行分析,并通过准确性、精密度和受试者工作特征曲线(ROC)评价模型性能。
数据集包括150名年龄从60到96岁的人口统计学MRI数据患者(即受试者)。所有受试者均提供知情同意,并摘自开放获取影像研究系列(OASIS)[8]。vwin德赢体育网址每个受试者至少接受两次扫描,共获得373个MR会话信息。所有与右手相关的受试者,不论性别。目前的AD状态由临床痴呆比率(CDR)决定,每组分为3组,146名AD(痴呆),190名ADnon(非痴呆)和37名ADcon(转化)。
决策树是机器学习技术的传统模型,与其他模型相比,决策树产生的结果具有更高的准确性。一种算法方法发展了这些数据分割是由不同的条件[9]完成的。许多研究认为决策树是进行预测分析的一种很好的方法。在AD预测中,我们从树根特征开始,并将该特征与其他树节点特征进行比较。基于相关性,我们追踪与该值相关的分支,并跳转到下一个节点[10]。在实现带有谓词类的叶节点之前,保持不同的AD组和其他树内部节点非常重要。
基于AD组,将所有特征暴露在J48决策树模型中。采用交叉(k-fold)验证(CV)技术对模型进行验证。CV是一种具有唯一参数“k”的重采样技术,用于有限数据样本的模型评估。基于“k”值的数据可以分为测试组和训练组。交叉验证以k = 5进行,以避免拟合问题,这意味着用于测试的5个数据折叠(或子组)和用于培训目的的k-5折叠。为了生成修剪决策树,我们考虑了CDR、MMSE、n-WBV、性别和MR延迟的有限特征,因为这些特征与群体类别高度相关。
通过准确性、精密度和受试者工作特征曲线(AU-ROC)下的面积来评估模型的性能。选取相关性高的特征结合AD组进行数据预处理。在目标AD组和其他特征之间进行模型训练,模型驱动痴呆预测的操作沿着绩效指标和混淆矩阵(图1)。
从图1可以明显看出,在373次MRI会话中,331次被正确分类,准确率为88.7%。真阳性预测的加权平均值(即精密度)为86.7%。精度(或灵敏度)由真阳性和阳性预测总数的比率计算。例如,对真实AD受试者的精确度评价为91.3%(式1)。
真实AD预测真实AD subjectstrue (AD+ADnon+ADcon)受试者=188188+18*100=91.3% (1)
可以观察到以CDR为中心节点的J48剪枝决策树(图2)。当分支CDR≤0时,MRI会话分类为ADnon,准确率为92%。第二个分支CDR > 0,分为两个分支的MR delay作为中心节点。它生成的AD主题准确度为98.2%,以及另一个带有MMSE中心节点的分支。该树在底部节点后面加上一个组类别。如前所述,有一些特定的ADcon病例(即第一次就诊时被描述为非痴呆,随后在一次就诊时被描述为痴呆,反之亦然)对其他痴呆因素有更显著的影响。所生成的决策树预测正确地映射和分析了痴呆状态的置信度值。最终,痴呆的置信度最高的值将预测特定患者未来的痴呆状态,上述模型通过利用具体的利益来帮助患者,提前帮助患者来解释和预测患者的病情。
在大多数MCI的AD诊断研究中,MRI人口统计学信息和其他特征在AD预测[11]中非常重要。在本研究中,我们开发了一个带有特征缩减(修剪)技术的机器学习模型,以提高分类精度。不同的医学诊断已经发展与ML实施的连接。但是,很少有研究只与AD的分类相关。AD是一种复杂的数据分析,因为它需要测试信息、物理测试、认知测试、研究设施研究和MR图像[11-13]。因此,我们考虑特定的特征,如CDR、MR延迟、MMSE和n-WBV。
首先,AD组与其他与当前AD状态相关度最高的特征进行映射。CDR值用于评估晚期AD的预测。无论年龄如何,如果CDR≤0,则为ADnon, CDR最高的受试者为AD,其余为ADcon。结果树由不同的子分支生成,并在最后留下一个决策,被视为对应分支的叶子。结果表明,修剪决策树模型是最好的方法之一,准确率为88.7%。
在医学诊断[14]中评价ROC曲线值为基础分析,y轴为真阳性率图,x轴为假阳性率图(图3)。[15]认为,在诊断分类中,一个优秀模型的ROC值接近于一个模型,意味着它具有有效的可分离性度量。如果它接近零,就表示分离性最差。在本实验中,我们得到AD分类的ROC为0.962,这意味着对AD患者进行了全面的分类。
死亡率最高的原因是缺乏早期诊断,AD就是其中之一。特别是老年患者面临痴呆问题;通过医生的早期治疗,这类患者可以在一定程度上克服这一问题。同时,减少MR延迟也是克服AD发生概率的综合预防措施。因此,在未来AD患者陷入无助状态之前,有更多的机会来拯救他们。
没有作者拥有任何冲突的信息。