[发明专利]一种基于TF‑IDF改进算法的疾病症状推导方法在审
申请号: | 201610412964.6 | 申请日: | 2016-06-08 |
公开(公告)号: | CN106096273A | 公开(公告)日: | 2016-11-09 |
发明(设计)人: | 周作建;杨阳;胡云;周作霞 | 申请(专利权)人: | 江苏华康信息技术有限公司;十方健康管理(江苏)有限公司 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210019 江苏省南京市建*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于TF‑IDF改进算法的疾病症状推导方法,包括下列步骤:1)请医学专家根据科室分类编写疾病症状对应字典;2)分析每一个科室的文档,统计症状词频TF;3)分析所有的文档,统计计算反向词频ITF;4)查询每个疾病的搜索引擎月查询量,并找出最大的查询量,进而计算出搜索引擎查询指数。5)基于以上计算出的TF,IDF和搜索引擎查询指数按照公式计算出最终的权重。本发明解决了目前传统疾病症状推导方法推理逻辑复杂,依赖于医学专家经验知识,并且医学知识形式化困难等缺陷,通过TF‑IDF算法计算出的词频和搜索引擎搜索指数加权求和的方法,极大的提高了目前推导方法的效率,并利用搜索引擎大数据提高了导诊的准确性。 | ||
搜索关键词: | 一种 基于 tf idf 改进 算法 疾病 症状 推导 方法 | ||
【主权项】:
一种基于TF‑IDF改进算法的疾病症状推导方法,其特征在于,通过分析医学专家编写的疾病症状对应文档,应用TF‑IDF算法建立症状和疾病之前的对应权重。为了进一步提高权重的准确性,本方法实时爬取疾病搜索引擎查询次数,计算出搜索引擎搜索指数,对TF‑IDF算法所求权重进行进一步修正。疾病症状权重建立后,用户输入症状,系统查询预先计算好的保存在数据库中的症状疾病对应权重,倒排序后返回给用户。应用该推导方法可以有效的分析出症状和疾病的对应关系强弱,最终实现通过多个症状组合判定用户可能患的疾病,为用户就医前提供更多指导。该方法包含以下步骤:1)基于TF‑IDF算法计算疾病症状权重。TF即词频,在本方法中指的是症状在某科室文档中出现的频率。TF=症状在该文档中出现的次数/文档中所有症状词出现的次数。IDF表示的是一个症状和其他科室疾病的关联强弱,如果一个症状在所有科室文档中都出现的比较多,则该症状和每个疾病的关联度就不是很强。IDF=症状关联疾病个数/文档中所有疾病个数。2)计算某一个疾病在搜索引擎中的查询指数。搜索引擎查询指数指的是某疾病在搜索引擎中被查询的次数和疾病在搜索引擎中的查询次数的最大值的比值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏华康信息技术有限公司;十方健康管理(江苏)有限公司,未经江苏华康信息技术有限公司;十方健康管理(江苏)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610412964.6/,转载请声明来源钻瓜专利网。
- 上一篇:一体式修边模及方法
- 下一篇:一种律师评价数据处理方法
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用