[发明专利]网络信息搜索与分类服务系统在审
申请号: | 201110242394.8 | 申请日: | 2011-08-23 |
公开(公告)号: | CN102955791A | 公开(公告)日: | 2013-03-06 |
发明(设计)人: | 丁力 | 申请(专利权)人: | 句容今太科技园有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 212400 江苏省镇江市句容市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于信息处理领域,尤其涉及网络信息搜索与分类服务系统。该系统包括:用于下载用户选择的网站或网页的网络信息抓取模块;用于将上述网络信息抓取模块下载下来的网页抽取成纯文本的网页内容抽取模块;用于管理用于算法学习和特征提取的各个领域的训练文档集的语料库维护模块;用于维护用于词条切分和词频统计的主词典和同义词典的词典管理模块;用于对训练文档进行词条切分和词频统计,并根据词频分布提取出代表文档类的特征项集及相应权值,生成相应的类模型的机器学习模块;用于根据词频分布,提取出待分类文档的代表向量,并计算各文档类特征向量的相似度,符合一定的阈值条件则将其归属到相应的类别中的文档分类模块。 | ||
搜索关键词: | 网络 信息 搜索 分类 服务 系统 | ||
【主权项】:
网络信息搜索与分类服务系统,其特征在于,包括以下模块:信息抓取模块,网页内容抽取模块,预料库维护模块,词典管理模块,机器学习模块以及文档分类模块;所述的信息抓取模块,其用于下载用户选择的网站或网页;所述的网页内容抽取模块,其用于将上述网络信息抓取模块下载下来的网页抽取成纯文本;所述的语料库维护模块,其用于管理用于算法学习和特征提取的各个领域的训练文档集;所述的词典管理模块,其用于维护用于词条切分和词频统计的主词典和同义词典;所述的机器学习模块,其用于对训练文档进行词条切分和词频统计,并根据词频分布提取出代表文档类的特征项集及相应权值,生成相应的类模型;所述的文档分类模块,其用于根据词频分布,提取出待分类文档的代表向量,并计算各文档类特征向量的相似度,如符合上述的阈值条件则将其归属到相应的类别中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于句容今太科技园有限公司,未经句容今太科技园有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110242394.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种超级电容发动机启动电源装置
- 下一篇:一种高钙苦荞黄酮速溶饮料生产技术
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置