基于融合深度学习的大肠杆菌启动子识别与分类研究

启动子是基因表达调控的重要元件,深入研究启动子的序列结构特征和功能,是理解基因转录调控机制和表达模式的关键。在后基因组学时代,数据的可用性使得建立用于检测启动子的计算模型成为可能。到目前为止,启动子的识别主要是通过生物实验方法来实现的,这往往需要更多的时间和物力,通过计算方法识别启动子类型已成为一种更为有效的预测和分类方法。本文主要构建了新的特征提取方法,通过大量实验研究了基于融合深度学习算法的大肠杆菌启动子识别和分类的方法,主要研究内容如下:1)构建了一个名为iPSW(2L)-CLA的大肠杆菌启动子两层预测器。基于RegulonDB数据库,使用CD-HIT软件去除冗余后得到基准数据集。首先,使用One-hot 编码方式和基于核苷酸的理化性质 和频率密度编码方式 来编码 DNA 序列。其次,采用多头自注意力机制来增强预测模型的学习能PLX5622使用方法力。第三,使用两个一维卷积层、一个最大池化层来学习局部特征。最后,利用双向长短期记忆提取全局特征,从而进一步提高模型性能。在进行五倍交叉验证的方法下,该预测器在大肠杆菌启动子识别及其强度预测方面的AUPR分别为0.8339和0.8556,在第一层启动子识别和第二层启动子强度预测方面都比现有方法表现出更好的性能,表明iPSW(2L)-CLA预测器是可靠有效的。2)基于卷积神经网络构建了新的多类启动子预测模型iPro(2L)woodchip bioreactor-LCNN。本文提出了一种轻量级、快速、简单的两层多类CNN架构,用于识别大肠杆菌基因组的启动子。第一层是预测序列是否为启动子的二元分类,第二层是将大肠杆菌启动子分类为子类σ~(70),σ~(54),σ~(38),σ~(32),σ~(28)和σ~(24)的多重分类。在基准数据集上进行实验,并与两种最先进的方法寻找更多进行比较,预测结果显示该模型在五倍交叉验证方法下比现有预测器性能要好。此外,本文在一个独立测试数据集上测试了该模型,所得性能结果均优于其他方法,表明该启动子多分类的预测模型iPro(2L)-LCNN是可靠的。