基于集成学习算法的精神分裂症孕妇早产风险的预测模型研究

目的:早产(Preterm Birth)是造成全球新生儿和儿童疾病负担与死亡的主要原因。近年来,全球的早产率呈逐年上升趋势,早产不仅直接影响新生儿健康,也可导致幸存者发生一系列长期并发症并对其远期生活质量造成影响。目前,早产的发生机制和原因尚不清楚,再加上特殊筛查的成本问题,大多数研究只局限于一般孕妇人群,临床上缺乏对精神分裂症孕妇早产早期预警的有效评估手段。因此本研究利用精神分裂症孕妇的Protectant medium电子病历诊疗信息,结合人口学资料、生活行为特征、潜在身体状况、孕期保健以及就诊医院特征,运用不同的特征选择方法和集成学习算法构建其早产风险的预测模型。方法:本研究的数据从Cerner Health Facts数据库中获得,研究对象为2001年1月至2016年12月有诊疗记录的精神分裂症孕妇,其妊娠结局为自发性早产(早产)和足月分娩,并选取孕妇人口学资料、生活行为特征、潜在身体状况、孕期保健以及就诊医院特征。由于精神分裂症孕妇的早产结局和足月分娩结局之间存在类别不平衡的情况,采用SMOTE、Borderline-SMOTE和ADASYN三种重采样方法对数据的类别不平衡问题进行处理。采用递归随机森林(Recursive Feature Elimination-Random Forest,RFE-RF)和Boruta两种特征选择方法对数据进行预处理,以消除冗余特征。通过机器学习算法逻辑回归(Logistic Regression,LR)、支持向量机(Support Vector Machine,SVM)、多层感知器(Multilayer Perceptron,MLP)、极限梯度提升树(Extreme Gradient Boosting,XGBoost)、随机森林(Random Forest,RF)以及Stacking异质集成学习算法,采用五折交叉验证,构建早产风险预测模型。Stacking异质集成学习算法由多种不同的机器学习算法堆叠而成,以SVM,MLP,XGBoost和RF四种机器学习算法selleck Gefitinib为初级学习模型,以LR算法为次级学习模型,构建早产风险预测模型。采用准确率、精确度、召回率、F1 score和ROC曲线下面积(Area Under Curve,AUC)来评价并比较单一机器学习模型和Stacking集成学习模型的预测性能。结果:本研究共确定18277名精神分裂症孕妇,其中2687名孕妇发生早产(14.7%),15590名孕妇足月分娩(85.3%)。比较SMOTE、Borderline-SMOTE和ADASYN三种重采样方法处理类别不平衡问题的模型性能表现,ADASYN算法表现最佳。在进行特征选择时,经过两种特征选择方法对纳入研究的44个变量筛选,RFE-RF筛选出12个变量:伴侣吸烟、肥胖症、贫血、医院是否承担教学工作、孕妇吸烟、孕早期使用催眠药、孕妇先前存在的高血压、伴侣饮酒、孕早期使用抗精神病药、年龄、孕妇不良妊娠史、剖宫产史;Boruta筛选出20个变量:伴侣吸烟、肥胖症、贫血、孕早期使用催眠药、伴侣饮酒、孕妇吸烟、产次、剖宫产史、孕早期使用抗精神病药、医院是否承担教学工作、医院所在地区、孕妇先前存在的高血压、年龄、孕妇先前存在的糖尿病、受教育程度、孕期心理咨询、物质滥用、孕妇饮酒、孕妇不良妊娠史、甲状腺自身免疫性疾病。LR、SVM、MLP、XGBoost以及RF在经RFE-RF特征选择和Boruta特征选择后的特征子集中均以RF模型整体预测性能最优,且经Boruta特征选择后的特征子集的五种模型预测性能整体优于经RFE-RF特征选择后的特征子集。基于两种特征选择方法的特征子集构建的Stacking集成模型性能均优于五种单模型,基于RFE-RF特征子集的Stacking集成模型的准确率为86.48%,精确度为87.37%,召回率为85.69%,F1 score为0.8650,AUC值为0.9249;基于Boruta特征子集的Stacking集成模型的准确率为95.34%,精确度为93.27%,召回率为93.77%,F1 score为0.9352,AUC值为0.9776;总体来说,以SVM、MLP、XGBoost和RF为初级学习模型,LR为次级学习模型的Stacking集成学习算法在基于ADASYN方法重采样以及Boruta特征选择后的数据集上构建的早产风险预测模型的性能最佳。结论:本研究比较三种过采样方法处理样本不平衡问题时在五种模型上的综合表现,以ADASYN算法表现最好,使用该方法平衡样本进而提高早产风险预测模型的性能。采用RFE-RF和Boruta两种特征选择方法对变量进行筛选,减少冗余特征对早产预测模型性能的影响。在ADASYN重采样和Boruta特征选择的前提下,以SVM、MLP、XGBoost和RF为初级学习模型,LR为次级学习模型构建的StaAngiogenesis抑制剂cking异质集成模型对精神分裂症孕妇早产风险的预测性能最佳,优于任一单模型,可对精神分裂症孕妇早产的高危人群进行早期识别,为早产等产科结局的预测研究提供方法学参考。