背景:心血管疾病(cardiovascular disease,CVD)是导致人类死亡和残疾的主要原因,其发病率在全球呈上升趋势。冠心病(Coronary Heart Disease,CHD)是常见的CVD之一,其高入院率和高死亡率为我国公共卫生带来严峻挑战。鉴于传统疾病预测模型无法处理高维度的医学大数据,需要引入人工智能(Artificial Intelligence,AI)整合和开发一种高效、便捷以及适用广泛的CHD诊断模型来满足我国老龄人口的健康需求,对辅助医生临床决策、降低医疗成本以及优化医疗资源配置具有重要意义。目的:基于多中心大规模医学数据,开发、验证和评价老年人CHD并发HF的预测模型,为临床辅助诊断提供依据,进而实现HF预警,推进HF监测和干预。资料与方法:1.采用文献计量学方法,利用Python、COOC、VOSviewer、Pajek、Scimago Graphica和Cite Space v.6.R2实现2003~2022年AI融入CVD领域的文献可视化以及发掘构建CVD预测模型的AI方法或技术。2.收集重庆医科大学医学数据研究院大数据平台的患者数据,采用SPSS 25.0软件分析心血管内科住院患者的人口学特征、住院天数、住院费用以及疾病谱;利用SQL Server对诊断编码的原始数据进行预处理,实现数据的集成和转换,采用Apriori算法计算患者主要诊断和其他诊断频繁项集,识别最需要关注的CVD病种和人群。3.从Pub Med、Web of Science、Cochrane Library、Embase、中国知网、中国生物医学文献数据库、万方数据库获取和筛选文献,Stata17.0软件进行Meta分析,从文献中发掘CHD患者HF发生风险因素。4.获取重庆医科大学医学数据研究院大数据平台和四川省某医院的老年人CHD患者数据,提取人口学特征、疾病诊断编码和实验室检查结果,并对数据进行预处理。接下来,将最小绝对收缩和选择算子(Least Absolute Shrinkage and Selection Operator,LASSO)筛选的指标用于CHD并发HF的模型建立。逻辑回归(Logistic Regression,LR)、随机森林(Random Forest,RF)、决策树(Decision Tree,DT)、支持向量机(Support Vector Machine,SVM)、极端梯度提升(Extreme Gradient Boosting,XGBoost)、人工神经网络(Artificial Neural Network,ANN)、K近邻算法(K-Nearest Neighbor,KNN)、轻量梯度提升机(Lightweight Gradient Lifting Machine,light GBM)以及朴素贝叶斯(Naive Bayes,NB)9种算法分别在建模组、内部验证组、时间外部验证组和空间外部验证组构建老年人急性冠脉综合征(Acute Coronary Syndrome,ACS)和慢性冠脉综合征(Chronic Coronary Syndrome,CCS)并发HF的预测模型;采用决策曲线分析(Decision curve analysis,DCA)和夏普利算法(SHapley Additive ex Planations,SHAP)分别对模型进行临床实用性评估和指标重要性进行排序。结果:1.我国AI融入CVD领域的研究处于爆发期,研究热点主要集中在基于机器学习(Machine Learning,ML)的CVD预测模型构建、基于特征提取的心电信号(Electrocardiogram,ECG)分类、基于深度学习(Deep Learning,DL)的图像分割、基于机器人系统的导管消融或者微创手术以及基于自然语言处理(Natural Language Processing,NLP)的电子病历(Electronic Health Record,EHR)特征提取。2.CHD是心血管内科住院患者人数最多的病种,约占总数的36.8%,其次是高血压病和慢性阻塞性肺病,分别占总人数的12%和7.3%。同时,CHD是45~64岁和65岁以上患者疾病顺位第一的病种。通过关联规则发现,“I50.903(心功能Ⅱ级)→I20-I25(CHD)”和规则“I50.904(心功能LBH589核磁Ⅲ级)→I20-I25(CHD)”重要性最高。3.身体质量指数(Body Mass Index,BMI)、糖尿病、年龄、高血压、心肌梗死史(History of Myocardial Infarction,History of MI)、左心室射血分数(Left Ventricular Ejection Fraction,LVEF)、房颤史biologicals in asthma therapy(History of Atrial Fibrillation,History of AF)、血脂异常、白细胞计数(White Blood Cell Count,WBC)、C反应蛋白(C-reaction protein,CRP)、慢性阻塞性肺疾病(Chronic Obstructive Pulmonary Disease,COPD)、中风、肌酐(Creatinine,Cr)>93.6、低密度脂蛋白胆固醇(Low-Density Lipoprotein Cholesterol,LDL-C)>2.46、左心房容积指数(Left Atrial Volume Index,LAVI)、左心室舒张早期快速充盈的充盈峰与舒张晚期充盈的充盈峰比值E/A、整体纵向应变(Global Longitudinal Strain,GLS)是CHD患者发生HF的风险因素(P<0.05)。4.(1)建模组中,XGBoost构建的ACS并发HF诊断预测模型AUC值达0.957(95%CI:0.950-0.965),RF模型在内部验证中AUC值达0.787(95%CI:0.758-0.816)、XGBoost模型在时间外部验证中的AUC值为0.750(95%CI:0.698-0.802),LR模型在空间外部验证中的AUC值0.70(95%CI:0.675-0.724);XGBoost构建的老年人ACS并发HF的预测模型的整体临床实用性最好。老年人ACS并发HF风险因素重要性排序寻找更多依次为:高血压、RDW、WBC、糖尿病、LMR、总胆固醇、高脂血症和慢性胃炎。(2)建模组中,XGBoost构建的老年人CCS并发HF预测模型AUC值为0.877(95%CI:0.868-0.885),NB模型在时间外部验证中AUC值为0.746(0.721,0.770),ANN模型在空间外部验证中的ROC曲线下面积AUC值达到0.736(95%CI:0.720-0.753);XGBoost构建的CCS并发HF的预测模型的整体临床实用性最好。老年人CCS并发HF风险因素重要性排序依次为:高血压、UA、RDW、白蛋白、总胆固醇、年龄、慢性胃炎、PLR和全血钙。老年人ACS和CCS并发HF的预测模型的预测结果与患者实际的临床结局一致,风险因素分析结果也与临床经验相符。结论:1.基于医学大数据的ML预测模型的开发是目前研究热点之一,ML尤其在构建数据驱动的推理和预测模型上具有优势,作为建立CVD预测模型的方法。2.CHD是心血管内科住院患者人数最多的病种,心力衰竭(Heart Failure,HF)是CHD主要并发症,65以上老年人作为研究对象。3.BMI、糖尿病、年龄、高血压、History of MI、History of AF、LVEF、血脂异常、WBC、CPR、COPD、中风、Cr、LDL-C、LAVI、E/A、GLS是CHD患者发生HF的风险因素,可纳入作为建立CHD并发HF预测模型的指标。4.本研究建立的ACS和CCS并发HF的预测模型在老年人群中取得了较好的预测效能,且经过了“时间+空间”的双重外部验证,具有良好的适应性、泛化性和鲁棒性,在临床上的推广应用有一定的参考价值。