面向心血管病数据信息系统的深度学习数据治理研究

由于人们日常生活水平的提高和亚健康的生活方式,全国心血管疾病人数已达到23%,大量的心血管病数据堆积而无法得到充分地整合与利用。因此,如何治理心血管病数据已经成为当下的研究热点,该研究可为医生的科研和临床实践提供有价值的数据基础。本课题受到辽宁省自然科学基金资助(2023-MS-054),研究MLN8237化学结构目的是探索面向心血管病数据信息系统的深度学习数据治理研究。力争实现对心血管病数据信息中涉及的非结构化文本进行有效治理。本文的主要工作和贡献如下:(1)为实现对经皮冠状动脉接入治疗(PCI)手术信息的结构化处理,使之能够直接被医生有效利用。本文设计了一个全新的字符级向量嵌入表达方法,并基于此构建了一种新的深度学习网络模型,即基于多尺度特征提取的双向长短时记忆网络(BCC-Bi LSTM)。该模型在经典双向长短时记忆网络(Bi LSTM)基础上进一步融合卷积神经网络(CNN)及Bidirection Encoder Representations from Transformers(BERT)进行特征提取与表示,最后利用条件随机场(CRF)进行解码并预medical alliance测标签序列。可实现对PCI手术信息的命名实体识别任务,完成对PCI手术信息结构化处理。为验证所提模型的性能,本文同时采用具有代表性的传统方法和智能方法进行对比,包括隐式马尔科夫(HMM),Bi LSTM,Bi LSTM-CRF和BERT-Bi LSTM-CRF。(2)为进一步增强所提BCC-Bi LSTM模型输入数据的质量,防止非结构化文本数据间的混杂,造成数据污染,本文提出一种新型深度金字塔卷积神经网络模型,用于心血管病诊治中PCI手术信息、诊断、现病史和主诉等文本分类问题。该模型通过引入等长卷积来提高词嵌入矩阵表示的丰富性,并对每个卷积块进行池化,增加模型对临床文本的感受野。最后通过加深网络结构和引入多头注意力机制来保留文本的时序,整体增强模型抽取长距离文本依赖关系的能力,提高模型识别的准确率。本文通过对比其他主流的7种文本分类模Blebbistatin半抑制浓度型,从多方面验证所提模型的性能。(3)为给医生提供良好的科研与临床实践平台,同时也为对上述模型进行临床验证,本文搭建了心血管病数据信息系统。该系统基于Spring Boot和WPF技术框架,运用C#、Xmal和JAVA等编程语言。将本文所提两种模型嵌入到该系统中,并结合医生实际需求,进一步完成了患者基本信息,患者数据查询统计、科研数据管理、命名实体识别及本文分类等主要功能模块设计。该心血管病数据信息系统目前已在辽宁省人民医院部分科室试运行。