GEO数据库联合机器学习策略识别骨关节炎特征性lncRNA分子标志物及实验验证

目的 利用GEO(GenMC3溶解度e Expression Omnibus)数据库联合机器学习筛选骨关节炎(osteoarthritis,OA)特征性的长链非编码RNA(lncRNA)分子标志物。方法 GEO数据库筛选数PLX-4720抑制剂据集得出差异表达lncRNA。3种算法被用于筛选候选的lncRNA模型,绘制受试者操作特征曲线评价模型。收集临床OA患者外周血单核细胞验证lncRNA分子标志物的表达,Pearson分析lncRNA与免疫炎症指标的相关性。结果 纳入185例OA及76例正常健康人样本,LASSO得出14个关键标志物,SVM-RFE算法确定6个基因,RF算法确定24个基因。Venn图筛选得出3种算法的重叠基因,包括HOTADrug Discovery and DevelopmentIR、H19、MIR155HG和NKILA。受试者工作特征曲线显示这4个lncRNA的曲线下面积均大于0.7。RT-PCR法发现与正常组相比,HOTAIR、H19、MIR155HG在OA患者外周血单核细胞中相对表达量升高,NKILA表达量下降(均P<0.01),结果与生物信息学预测结果相一致。Pearson相关性分析表明选定的lncRNA与临床免疫炎症指标相关。结论 HOTAIR、H19、MIR155HG和NKILA可作为OA临床诊断分子标志物,且与临床免疫炎症指标相关。