学习笔记-人工智能加强心电图作为心脏和非心脏疾病同一筛查工具的前景:一项紧急护理的探索性研究
文章标题:
人工智能加强心电图作为心脏和非心脏疾病同一筛查工具的前景:一项紧急护理的探索性研究
原文链接:https://academic.oup.com/ehjdh/article/5/4/454/7670685
配景:
- 现有的 AI 心电图研究局限于二进制猜测题目,在定义适当的控制组时面对挑战。
- 使用闭源数据集,导致模型泛化能力差,难以在新数据上表现精良。
- 缺乏临床根本究竟,限制了心电图诊断边界的解释。
- FDA 答应的心电图算法固然出现,但孤立应用程序的范围有限。
研究目的:
- 使用基于深度学习的心电图分析算法,通过全面的临床诊断声明举行练习。
- 提供具体的个性化风险评分,同时支持深度表型分析。
- 未来可将该模型与其他模式的患者数据(如基因组测序或医学成像)结合使用。
研究过程:
两个患者用例:
- 患者1:
- 到达急诊科 -> 举行心电图查抄 -> 根据心电图数据猜测急诊诊断 -> 急诊后出院
- 患者2:
- 到达急诊科 -> 举行心电图查抄 -> 住院治疗 -> 根据住院期间数据猜测出院诊断 -> 最终出院
深度学习模型结构:
- Conv1D(卷积层):初步处理输入的 ECG 信号数据。
- S4 Block(结构化状态空间模块):模型中的核心模块,每个块包含以下组件:
- S4Layer:捕捉时间序列中的复杂模式。
- Dropout:防止过拟合的正则化技能。
- GeLU:激活函数,用于增加模型的非线性能力。
- TransLinear:数据变更操作,用于层间输出毗连。
- LayerNorm:层归一化,确保练习稳定性。
- Linear(线性层):最终用于输出猜测效果。
方法
数据集构建:
- 数据来源整合:将 ECG 信号与患者的入院和出院数据举行匹配。
- ICD 代码的标准化:将 ICD-9-CM 转换为 ICD-10-CM 代码,以便同一练习和猜测。
- 优先级:使用出院诊断作为主要的猜测目标,而非急诊诊断,由于出院诊断更全面。
猜测使命和练习过程:
- 这是一个监督学习过程,目标是举行多标签分类,猜测患者的出院诊断。
- 使用 AdamW 优化器 和 二进制交叉熵损失来优化模型。
- 为了防止过拟合,基于验证集的最高宏 AUROC(阐明多类别上都有精良的表现)举行模型选择。
- 使用2.5秒的 ECG 片段举行练习,猜测时使用多个片段的平均值来优化性能。
评估程序:
- 数据设计:在测试和验证会合,每个患者只使用一次 ECG 记录,以制止多次记录导致的偏差。
- 评估指标:使用宏 AUROC作为主要评估指标,并通过 bootstrapping 举行不确定性评估。
- 数据集划分:不同的数据子集用于模型练习和评估,重点观察泛化能力和模型在不同使命上的表现。
效果与模型性能
- 在 1079 个思量的 ICD-10 代码中,有 439 个的性能凌驾了 0.8 的 AUROC 分数。通过 bootstrap 置信区间评估的统计不确定性相当低,全部代码的中位数为 0.0506 (IQR 0.0373)。阐明该模型有很好的可靠性和稳定性。
- 外部验证显示,该模型在仅有六种心脏状况的粗略集合中,仍然表现出优于内部测试集的性能。这可能是由于内部猜测使命更复杂,需要区分相似的鉴别诊断,而外部验证则在较少的条件下举行。阐明该模型有很好的泛化能力。
- 模型不但能够猜测多种心脏病(如心肌梗死、心房颤动),还能够猜测非心脏病,例如:
- 大肠杆菌感染
- 白血病
- 2 型糖尿病
- 酒精依赖
- 呼吸衰竭
- 酒精性肝硬化
- 溃疡
- 肾病
- 心源性休克
- 中毒
- 交通变乱导致的损伤
- 辅助装置的存在
局限性
首先,出院诊断可能包含与患者病情无关的事件,而且编码过程可能出现偏差。固然可以通过整合时态元数据和使用全文出院陈诉来改善这一点,但出院诊断仍然是临床究竟的紧张代表,能在肯定程度上提拔专家注释的质量。
第二,研究效果仅显示相干性而非因果关系,稠浊因素(如人口统计变量和病史)可能掩饰因果关系。引入临床元数据可以资助揭示这些复杂因素。
第三,该方法在处理共存疾病时相对不易受到未控制的稠浊效应影响,由于它思量了全部急诊室心电图的临床相干患者,而不是依赖特定对照组。研究中提到的模型在有腹水与无腹水的肝硬化患者中均能保持高AUROC评分,这显示出对稠浊因素的精良控制。
最后,只管控制了稠浊因素,合并症仍可能影响效果。通过Matthew相干系数(MCC)分析,发现特定语句与其父语句之间的高度相干性,这表明模型可能未能完全捕捉全部信息。清除父级陈述后,发现标签之间的相干性通常表现类似病症的不同编码。固然分析没有明确表明共存标签存在显著稠浊效应,但在某些情况下,这些因素可能影响模型的泛化能力。
以上是对论文有关知识点的总结,摘抄,下面是相干的知识点
二进制猜测题目:
指的应该就是0/1,比如抱病/不抱病
闭源数据集:
指的是不公开分享的、只能通过特定授权或渠道访问的数据集。
心电图诊断边界:
指的是在心电图分析过程中,模型或算法如何确定正常与非常心电图之间的边界。
FDA答应的心电图算法:
FDA(美国食品药品监督管理局)答应的心电图算法是指通过FDA严格审查和答应的医疗装备算法或软件。
深度表型分析:
深度表型分析是一种综合方法,用于从多种数据源(如基因组、临床特征、影像学数据等)中提取和整合患者的具体特征。这种分析可以资助研究人员更好地理解疾病的复杂性及其与患者特征之间的关系,通常用于疾病的精准医疗和个性化治疗。
ICD(国际疾病分类)
是一种用于记录疾病和康健相干题目的标准分类系统。ICD-9-CM和ICD-10-CM是不同版本的疾病编码系统。将ICD-9-CM转换为ICD-10-CM代码是为了同一数据集,使得模型能够在不同时间和数据版本之间举行练习和猜测,确保一致性和准确性。
AdamW 优化器:
AdamW是一种改进的优化算法,结合了自适应学习率和权重衰减(L2正则化)。它在练习深度学习模型时,可以更有效地减少过拟合,提拔收敛速率和模型性能。
二进制交叉熵损失:
二进制交叉熵损失是一种用于二分类题目的损失函数。它衡量模型猜测概率与真实标签之间的差异,越小的损失值表现模型性能越好。在练习中使用该损失函数可以资助模型学习更准确的分类边界。
宏AUROC(Macro AUROC):
AUROC(Area Under the Receiver Operating Characteristic Curve,受试者工作特征曲线下的面积)是一种衡量分类模型性能的指标,表现模型区分正类和负类的能力。宏AUROC是针对多分类题目的AUROC计算方法。与“微AUROC”(Micro AUROC)不同,宏AUROC是对各个类别的AUROC分别计算后取平均值,从而对每个类别给予类似的权重。因此,宏AUROC适合用来衡量不同类别间具有较大不均衡的数据集的整体分类性能。
Bootstrapping:
Bootstrapping是一种统计方法,用于通过随机抽样和重复计算来估计模型或统计量的稳定性或不确定性。在模型评估中,bootstrapping技能通过多次从原始数据会合抽样并重新练习模型,天生多个估计值,从而计算模型性能的置信区间。这种方法有助于评估模型猜测效果的可靠性和稳定性。
整合时态元数据:
时态元数据指的是与时间相干的额外信息,如数据采集时间、事件发生的时间顺序等。整合时态元数据意味着将这些时间信息融入到模型中,使得模型不但能够根据静态特征举行猜测,还能基于事件随时间的变革做出更准确的判断。例如,患者的入院时间、症状开始的时间等信息可以资助模型更好地理解疾病的进展情况。
稠浊效应:
稠浊效应是指在统计或机器学习模型中,某些未被控制的变量对研究效果产生了干扰,导致研究效果偏离现实。例如,在研究某种治疗效果时,患者的年事、性别等人口统计学信息可能会干扰对治疗效果的评估。稠浊效应会使模型的猜测能力受到干扰,从而影响效果的准确性。为了办理这个题目,研究人员通常会引入额外的变量举行调整或通过实验设计来减小稠浊效应。
合并症
合并症是指患者同时患有两种或多种疾病的情况。
Matthew相干系数(MCC)
是一种用于评估二分类模型性能的统计量。它综合思量了四种根本分类效果的数量:真正例(TP)、假正例(FP)、真负例(TN)和假负例(FN)。MCC的值范围从-1到1。
$ \text{MCC} = \frac{TP \times TN - FP \times FN}{\sqrt{(TP + FP)(TP + FN)(TN + FP)(TN + FN)}} $
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |