[发明专利]采用逻辑回归方法预测有机化学品生物降解性有效
申请号: | 201310234499.8 | 申请日: | 2013-06-11 |
公开(公告)号: | CN103345544A | 公开(公告)日: | 2013-10-09 |
发明(设计)人: | 李雪花;陈广超;陈景文;乔显亮 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F17/50 | 分类号: | G06F17/50 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 梅洪玉 |
地址: | 116024*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种通过逻辑回归算法预测有机化学品生物降解性的方法。在获得化合物分子结构的基础上,仅通过计算表征结构特征的描述符,应用所建定量结构活性关系(QSAR)模型,即能快捷、高效地预测有机化合物的生物降解性,其成本低廉、简便快捷,节省测试所需的大量人力、费用和时间。本发明完全依照经合组织(OECD)的QSAR模型构建和使用导则进行建模,仅采用14种分子结构描述符,运用算法清晰、透明的逻辑回归方法,便于理解和应用;模型应用域明确,涵盖不同种类化合物达1629种;具有良好的拟合效果、稳健性和预测能力,能够有效预测多种类不同有机化合物的生物降解性,为有机化学品风险评价和管理提供重要数据支持,对生态风险评价具有重要意义。 | ||
搜索关键词: | 采用 逻辑 回归 方法 预测 有机 化学品 生物降解 | ||
【主权项】:
采用逻辑回归方法预测有机化学品生物降解性,其特征在于,从991种难降解类化合物中随机选取645种难降解类化合物,与638种易降解类化合物组成易降解类与难降解类化合物比例均衡的数据集,然后将其按照2:1的比例分成训练集和验证集;剩余346种难降解类化合物为验证集;训练集用于构建预测模型,验证集用于建模后的外部验证;内部验证采用10折交叉验证方法;首先通过分析影响有机化合物生物降解性因素选取分子结构描述符,表征有机物分子结构、形状、复杂性、官能团以及性质等信息的Dragon分子结构描述符,共650种;然后,运用功能速算法从650种Dragon描述符中筛选出14种分子结构描述符,再采用逻辑回归算法建立逻辑回归模型;所筛选的14种分子结构描述符及所建模型如下:z=1.9025+1.0457×nN+0.6662×nHM‑0.1078×O%+2.8362×MATS1e–2.0019×GATS1p‑0.7015×GATS7p+0.1131×GGI1+0.7023×GGI2+2.7793×nCq+1.035×nCrt‑0.777×C‑040‑0.7091×H‑048‑0.1553×H‑051+0.955×O‑059且有 f ( z ) = 1 1 + e - z = 1 1 + e - ( α + Σ β i X i ) ; 其中,nN表示氮原子数,nHM表示重原子数,O%表示氧原子百分比,MATS1e表示Sanderson电负性加权的Moran自相关指数,GATS1p及GATS7p表示极化率加权的Geary自相关指数,GGI1和GGI2表示拓扑电荷指数,nCq表示季碳原子数,nCrt表示环叔碳原子数,C‑040表示分子中R‑C(=X)‑X/R‑C≡X/X=C=X亚结构数,H‑048表示与碳原子相连的氢原子数,该碳原子以sp,sp2或sp3方式杂化;H‑051表示与α‑碳相连的氢原子数,O‑059表示分子中的Al‑O‑Al结构数;当f(z)>0.500时化合物被预测为难降解类;反之,则被预测为易降解类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310234499.8/,转载请声明来源钻瓜专利网。