[发明专利]一种从社区问答网站自动获取知识领域短文本的方法有效

专利信息
申请号: 201610101431.6 申请日: 2016-02-24
公开(公告)号: CN105760514B 公开(公告)日: 2018-12-07
发明(设计)人: 魏笔凡;郑元浩;刘均;郑庆华;吴蓓;闫彩霞;郭朝彤;张玲玲 申请(专利权)人: 西安交通大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 西安通大专利代理有限责任公司 61200 代理人: 李宏德
地址: 710049 陕*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供一种从社区问答网站自动获取知识领域短文本的方法,能够爬取社区问答网站知识领域相应领域下每个主题的问题网页和作者网页,获取数据全面系统,方便用户学习和使用。其包括如下步骤:步骤1,爬取社区问答网站中知识领域的Web页面;步骤2,抽取网页数据集中的知识领域短文本;步骤3,构建领域主题树;步骤4,领域主题树的存储。其能够从社区问答网站半结构化数据中自动抽取知识领域短文本,通过爬取社区问答网站知识领域相应领域下每个主题的问题网页和作者网页,构建了知识领域的网页数据集,然后自动抽取其中的知识领域短文本并发现其中的父子关系,从而构建了领域主题树并实现了领域主题树的存储,最终方便用户学习和使用。
搜索关键词: 一种 社区 问答 网站 自动 获取 知识 领域 文本 方法
【主权项】:
1.一种从社区问答网站自动获取知识领域短文本的方法,其特征在于,包括如下步骤:步骤1,爬取社区问答网站中知识领域的Web页面;按照领域的不同,基于深度优先遍历算法爬取社区问答网站的动态网页,解析得到含有知识领域知识的网页中的主题页面、问题页面和作者页面的基本信息,构建包含这三类页面的集合,形成知识领域的网页数据集;步骤2,抽取网页数据集中的知识领域短文本;通过使用HTML解析工具分别对网页数据集中的主题页面、问题页面和作者页面进行解析,得到每类页面包含的知识领域短文本,构建短文本数据集;步骤3,构建领域主题树;通过分析短文本数据集,得到每个领域对应主题下的短文本及其父子关系,构建多棵以领域名为树根和以知识领域短文本为树节点的树,将其命名为领域主题树;步骤4,领域主题树的存储;首先将领域主题树中的节点信息存入相应的树节点集合中,然后根据领域分别设计得到对应的领域表格;其次将树节点集合的信息存入领域表格的对应列中,补全每张领域表格的信息,构建用于存储每个领域所有短文本的知识领域数据库;步骤2中抽取网页数据集中的知识领域短文本,具体包括如下步骤;2.1解析每个领域对应的的网页数据集,包括主题页面、问题页面和作者页面这三类页面的HTML结构,根据页面HTML标签定位相应的逻辑块,逻辑块中的每段短文本表示一个实体;定义短文本数据集TFS={domainc}s,其中s表示网页数据集中的领域数量,domainc表示网页数据集中的第c个领域;如果一段文本隶属于另外一段文本,则称它们之间存在父子关系;2.2解析主题页面,依据HTML标签定位并解析主题块,得到主题短文本及所属领域,所属领域与主题短文本集合形成父子关系集,并将其加入短文本数据集TFS;2.3二次解析主题页面,依据HTML标签定位并解析问题块,得到描述问题的短文本,得到所有问题短文本的集合,即问题集合;主题短文本与问题块中的问题短文本集合形成父子关系集,并将其加入短文本数据集TFS;2.4解析问题页面,解析问题页面的HTML标签,得到问题的评论数和投票数,得到所有问题的评论数和投票数的集合;问题集合与问题的评论数集和投票数集分别形成父子关系集,并将其加入短文本数据集TFS;2.5二次解析问题页面,解析问题页面的HTML标签,得到问题的回答,得到所有回答的集合;问题与回答集合形成父子关系集,将其加入短文本数据集TFS;2.6三次解析问题页面,解析问题页面的HTML标签,得到答案的评论数和投票数,得到所有评论数和投票数的集合;回答集合与回答的评论数集和投票数的集合分别形成父子关系集,将其加入短文本数据集TFS;2.7解析作者页面,解析作者页面的HTML标签,得到作者的姓名;解析HTML标签得到作者的粉丝数;解析HTML标签得到作者擅长领域;得到所有作者信息,包括分别构成的作者姓名集合、作者粉丝数集合和作者擅长领域集合;回答集合与回答的作者信息集形成父子关系集并将其加入短文本数据集TFS。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610101431.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top