[发明专利]一种生物文本中蛋白质相互关系的半监督抽取方法有效
申请号: | 201310072341.5 | 申请日: | 2013-03-07 |
公开(公告)号: | CN103136361B | 公开(公告)日: | 2016-11-30 |
发明(设计)人: | 陈一飞 | 申请(专利权)人: | 陈一飞 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 姚姣阳 |
地址: | 211815 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种生物文本中蛋白质相互关系的半监督抽取方法,按如下步骤进行:(1)将训练样本集和未标注样本集输入预处理器,分别进行蛋白质命名实体识别、分句处理和指代消解处理;(2)在预处理过的训练样本集中提取候选蛋白质作用对;(3)在候选蛋白质作用对中提取分类模型需要的特征集,对特征集的特征值进行基于信息强度的加权;(4)将基于信息强度加权的特征值与未标注样本集一起输入到分类模型中进行半监督学习,对中样本进行标注,将最有价值的生物文本加入到样本标注集,用更新训练样本集和未标注样本集,对分类过程进行迭代,直到收敛。本发明简洁高效、性能高、收敛快、抽取效率高并保证数据真实性、节约实验资源。 | ||
搜索关键词: | 一种 生物 文本 蛋白质 相互关系 监督 抽取 方法 | ||
【主权项】:
一种生物文本中蛋白质相互关系的半监督抽取方法,其特征在于,按如下步骤进行:(1)将已标注蛋白质相互作用信息的生物文本集做为训练样本集L0,将未标注蛋白质相互作用信息的生物文本集做为未标注样本集U0,将所述训练样本集L0和所述未标注样本集U0输入预处理器,依次分别进行蛋白质命名实体识别、分句处理和指代消解处理,生成预处理过的文本集;(2)在步骤(1)中的预处理过的训练样本集L0中提取候选蛋白质作用对;(3)在候选蛋白质作用对与其存在的句子和全文的基础上提取SSW‑SVMs分类模型需要的特征集F=(f1,f2......,fn),对特征集F的特征值通过半监督学习方法进行基于信息强度的加权:
式中:
其中M为预定义的类别总数,C为预定义的类别;(4)基于信息强度加权的特征集训练SSW‑SVMs分类模型,并对未标注样本集U0进行标注,利用主动学习方法选择标注后的U0样本,将最有价值的生物文本加入到样本标注集S,更新训练样本集L1=L0∪S,更新未标注样本集U1=U0/S,用更新后的训练样本集L1和未标注样本集U1重复步骤(3)‑(4),对分类过程进行迭代,直到收敛。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陈一飞,未经陈一飞许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310072341.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种太阳能空气源热泵热水可视化远程监控系统
- 下一篇:一种机床控制电路