[发明专利]一种基于随机聚类森林的全基因组蛋白质功能预测方法有效

专利信息
申请号: 201610171048.8 申请日: 2016-03-23
公开(公告)号: CN105868581B 公开(公告)日: 2018-09-14
发明(设计)人: 吴庆耀;谭明奎;陈健;牟帅;韩超 申请(专利权)人: 华南理工大学
主分类号: G06F19/18 分类号: G06F19/18;G06K9/62
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 何淑珍
地址: 510640 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于随机聚类森林的全基因组蛋白质功能预测方法。该方法将已注释功能的蛋白质按功能分别进行聚类,将具有同一种功能的蛋白质划分为若干个簇,并计算每个簇的中心;所有的簇中心组成蛋白质新的特征向量,使用蛋白质原有的多组特征向量将每个蛋白质转换为只具有一组特征向量的对象;将完成特征转换的蛋白质作为数据集,使用已注释功能的蛋白质训练多棵随机聚类树,构建随机聚类森林作为全基因组蛋白质的功能预测模型,并使用该模型预测未注释的全基因组蛋白质的功能。本发明提高了蛋白质预测的效率,也提高了蛋白质功能的注释准确率。
搜索关键词: 一种 基于 随机 森林 基因组 蛋白质 功能 预测 方法
【主权项】:
1.一种基于随机聚类森林的全基因组蛋白质功能预测方法,其特征在于包括以下步骤:S1、将已注释功能的蛋白质按功能分别进行聚类,将具有同一种功能的蛋白质划分为若干个簇,并计算每个簇的中心;S2、所有的簇中心组成蛋白质新的特征向量,使用蛋白质原有的多组特征向量将每个蛋白质转换为只具有一组特征向量的对象;所述蛋白质新的特征向量建立方法具体如下:S21、计算每个蛋白质与每个簇中心的Hausdorff距离H(Xi,Mj);S22、计算每个蛋白质的特征值,其计算公式如下:其中Xi和Mj分别是指第i个蛋白质和第j个簇中心,偏差σ由簇中心两两间Hausdorff距离的平均值决定,具体计算方法如下:其中m为所有簇中心的数量,μ为转换系数,μ∈(0,1);S3、将完成特征转换的蛋白质作为数据集,使用已注释功能的蛋白质训练多棵随机聚类树,构建随机聚类森林作为全基因组蛋白质的功能预测模型,并使用该模型预测未注释的全基因组蛋白质的功能;所述的随机聚类树的建立方法具体如下:S31、对随机聚类树的每个节点,随机选取一组特征向量{fj|1≤j≤m}和其对应的任意阈值{θj|1≤j≤m};S32、对当前节点Dc中的蛋白质进行划分,如果蛋白质的特征fj的值大于θj,则该蛋白质划分到当前节点的右子节点Dr;否则,该蛋白质划分到当前节点的左子节点Dl;S33、计算特征fj的划分值,计算公式如下:其中|Di|是指子节点Di中蛋白质的个数,Info(Di)是指子节点Di的信息增益,Info(Dc)是当前节点Dc的信息增益;S34、重复步骤S32‐S33,找到对当前节点划分值最高的特征fj和其阈值θj;S35、重复步骤S31‐S34,保留每个节点的划分特征fj和其阈值θj,建立一棵随机聚类树。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610171048.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top