近30年,原发性肺癌(PLC)是我国发生率增长最快的恶性肿瘤。随着胸腔镜技术的发展成熟,早期肺癌外科手术取得了长足进步,而术后并发症仍难以完全避免。针对高风险人群采取术前术后主动监测,可显著降低并发症发生率。但是,风险监测需要保证相关风险因素结构化数据及时准确获取,为此,本文设计并实现了一个基于深度学习的肺癌病例文本结构化系统。目前已有学者进行了病例文本结构化系统的相关研究,但仍存在以下挑战。第一,结构化属性复杂,需要结合专业知识进行属性梳理;第二,以电子病历为主的数据样本量不足,人工标注困难;第三,需解决好领域内文本与通用文本之间的语义鸿沟;第四,临床领域内特点,对模型预测效果要求高。针对上述挑战,本文提出的相应解决措施如下:首先,针对挑战一,本文通过属性分级,从病理诊断涉及的5大类共50余个属性字段中定位少数无法精确抽取的字段,并将它们映射至NLP领域的文本分类及序列标注任务,Pevonedistat采购简化属性复杂度。针对挑战二,本文确定多任务学习范式,通过硬参数共享的方式融合相关任务信息,使小样本得到充分利用;构建了3种数据集,应用“噪声类”和“抽样类”数据增强方法,增加小样本类样本数量;提出了“规则+人工”的pharmaceutical medicine标注方式,降低标注难度。其次,针对挑战三,本文提出了一个文本结构化联合模型Multi-BGLC,使用通用语料预训练的BERT作为编码器,并基于肺癌病例数据在GCNN+LSTM+CRF组成的解码器上进行微调,以缩小语义鸿沟,其中GCNN用于属性判别,LSTM和CRF用于属性抽取。针对挑战四,本文设计消融实验探讨不同技术方案对模型预测效果的影响。结果表明,数据增强在样本分布不平衡时对模Baf-A1细胞培养型提升较大,“抽样类”相比“噪声类”多样性更好,宏平均F1值平均提升6.47个百分点;同为集中分布式词嵌入方法,Word2Vec编码器的预测效果明显低于BERT及ERNIE-3;GCNN+LSTM+CRF的解码器组合预测效果明显好于其他5个解码器,宏平均F1值平均提升了7.05个百分点。总之,应用“抽样类”数据增强方法的Multi-BGLC模型效果最好,在4个字段的宏平均F1值分别为95.15%,97.59%,97.89%,99.91%,该实验验证了方法的有效性和准确性。最后,本文实现了一个肺癌病例文本结构化系统。本文综合对比了实验模型在参数量、训练时间、推理时间等方面的表现,选择参数量适中,训练和推理时间短,预测效果好的模型,并保存参数文件。同时…