基于特征选择的左心室肥大识别算法研究

随着现代社会生活节奏的Angiogenesis抑制剂加快和工作压力的增加,心血管疾病的发病率逐年上升。左心室肥大(Left Ventricular Hypertrophy,LVH)作为某些心血管疾病的早期表现,能够反映心脏结构和功能的异常变化。因此准确识别LVH对于心血管疾病的预防、诊断以及治疗具有重要意义。心电图(Electrocardiogram,ECG)是一种无创、便捷且经济的检查手段,在识别LVH方面发挥着重要作用。然而,目前利用ECG数据识别LVH的方法还存在诸多问题,极大限制了其准确性和可靠性。首先,公开且带有LVH标注的ECG数据集极为稀缺,难以满足LVH识别算法研究与性能比较的需求。其次,现有的LVH识别算法通常采用固定时间长度的ECG片段作为特征,或额外引入性别、年龄、QRS波群间隔、平均心率等辅助信息。这种特征提取策略可能导致可解释性差以及关键信息难以捕捉的问题。此外,模型设计不合理也是导致当前LVH识别算法准确率较低的原因之一。针对这些问题,本文构建了一个数据量庞大的ECG数据集LVH-1,提出了一种基于正交约束和权重矩阵的特征选择方法、一种基于多向量融合搜索方向的投影类非单调线搜索(Projection-Type Nonmonotone Line Search,PNMLS)方法以及一种基于特征选择和卷积神经网络(Convolutional Neural Network,CNN)-长短期记忆网络(Long Short-Term Memory Neural Network,LSTM)模型的LVH识别算法,具体内容如下:(1)为解决带有LVH标注的ECG数据集稀缺的问题,本文构建了一个数据量庞大的ECG数据集LVH-1。本研究与广州某医院合作,以匿名回顾性研究的方式收集4944例患者的临床ECG数据。经过筛选(排除18岁以下、噪声过大medical autonomy及基线数据不完整的病例),最终保留4481例患者的ECG数据。为确保数据的平衡性和代表性,本文又从中筛选出1863例特征明显的患者(其中包括932例LVH患者,931例正常患者),并由资深心脏病专家与超声医生进行标注。随后,本文对ECG数据进行降噪、降采样、R波定位、ECG片段截取等一系列预处理操作,最终获得1157430个带有标注的ECG片段,为LVH识别算法的研究与评估提供了充足的数据支持。(2)为提升ECG特征提取的可解释性并且捕捉更多的关键信息,本文提出了一种基于正交约束和权重矩阵的特征选择方法。该方法在目标函数中引入了正交约束以保留更多的特征判别信息。但是,加入正交约束会使得目标函数的求解变为一个非凸问题,难以找到最优解。因此本文还提出了一种基于多向量融合搜索方向的PNMLS方法来解决约束优化问题。在目标函数收敛后,将获得的权重矩阵最优解映射到二维坐标系上形成山形图。通过计算山形图面积这一对数据的分布和形状更加敏感的指标,对特征的贡献度做出整体评估。本文在8个公开常用数据集上进行了实验,结果表明,相较于传统的PNMLS方法,基于多向量融合搜索方向的PNMLS方法能更快地令目标函数收敛至最优解,提高目标函数的求解效率。基于正交约束和权重矩阵的特征选择方法能够使得数据集在特征数量减少的情况下实现准确率的提升,验证了该方法的有效性。另外,本文还与目前比较先进的7种特征选择方法进行比较从而验证了该方法的先进性。(3)为提高LVH识别算法的准确率,本文提出了一种基于特征选择和CNN-LSTM模型的LVH识别算法。首先,在LVH-1数据集上应用基PEG300纯度于正交约束和权重矩阵的特征选择方法,从ECG片段中筛选出与识别任务最相关的特征组成最优特征子集。随后,将最优特征子集输入CNN-LSTM模型训练,从而构建了一种新的LVH识别算法。在此过程中,LVH-1数据集先后经过特征选择和特征提取,从特征贡献度以及时间-空间信息融合的角度提升了训练数据的质量,有助于提高算法的准确率。实验表明,本文提出的LVH识别算法的准确率达到了 85.8%,与医院常用的Cornell标准算法以及目前比较先进的LVH自动识别算法相比,提升了近13%。