[发明专利]一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法有效
申请号: | 201110302532.7 | 申请日: | 2011-10-09 |
公开(公告)号: | CN102346817A | 公开(公告)日: | 2012-02-08 |
发明(设计)人: | 陶爱林;张利达;邹泽红;黄于艺 | 申请(专利权)人: | 广州医学院第二附属医院 |
主分类号: | G06F19/24 | 分类号: | G06F19/24 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 陈卫 |
地址: | 510260 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于生物信息学技术领域,更确切的是涉及一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法。该预测方法包括建立过敏原数据库;形成过敏原聚类与家族;提取过敏原家族代表肽;建立支持向量机模型;模型性能参数的优化训练及大规模过敏原数据的测试。本发明优点是:建立在优先淘选过敏原家族特征肽基础上,该特征肽不仅对过敏原的典型特征作了精细描述,而且将过敏原与非过敏原做了严格区分,避免了过敏原判别过程中假阳性和假阴性的产生,从而在过敏原判别的准确性与灵敏度上取得了高水平的平衡而具有明显优势。在蛋白序列过敏原性的生物信息学分析方面具有广阔的应用前景。 | ||
搜索关键词: | 一种 借助 支持 向量 建立 过敏原 家族 特征 预测 方法 | ||
【主权项】:
一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法,其特征在于:包括以下步骤:步骤1:数据库的建立,从各过敏原数据库经过筛选得到的过敏原序列和非过敏原序列作为数据库;步骤2: 过敏原家族特征肽的提取,针对过敏原序列进行聚类分析,在形成的每一过敏原家族中,过敏原序列按照每相隔1‑10个碱基用滑动窗口分成6‑32个碱基长度的肽段,然后用所得肽段和非过敏原序列进行BLAST (Basic Local Alignment Search Tool, 序列基本对齐本地搜索工具),剔除那些与非过敏原相同或相似的片段,而那些和非过敏原序列没配对的肽段,并且采用BLAST所得的E值低于10‑7~10‑1时,即是过敏原特征肽(Allergen Featured Peptides, AFPs),而落在同一过敏原上且相邻的过敏原特征肽拼接后形成由2‑30个小的特征肽构成的过敏原家族特征肽(Allergen Family Featured Peptides, AFFPs);步骤3: 建立支持向量机模型,对于一个查询蛋白X建立特征向量FX = fx1, fx2, …, fxn , n代表过敏原家族特征肽库的片段数量,fxi为蛋白X和第i个AFFP进行BLAST后E值均一化的值作为矢量,并转换为径向基函数(Radial Basis Function, RBF); 步骤4:支持向量机模型的性能测定,采用交叉验证方法进行测定,即将训练集随机均分成n个互不相交的子集,利用n‑1个训练子集,对给定的一组参数建立模型,利用剩下一个子集做测试评估参数性能,即为n倍的内在交叉效度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州医学院第二附属医院,未经广州医学院第二附属医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110302532.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种油田回注水杀菌组合物及其制备方法
- 下一篇:一种抗病毒的组合药物
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用