[发明专利]一种自动撰写特定稿件的方法有效
申请号: | 201611207712.6 | 申请日: | 2016-12-23 |
公开(公告)号: | CN106777193B | 公开(公告)日: | 2020-04-10 |
发明(设计)人: | 李鹏 | 申请(专利权)人: | 李鹏 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N20/00 |
代理公司: | 北京细软智谷知识产权代理有限责任公司 11471 | 代理人: | 付登云 |
地址: | 100054 北京市丰台*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种自动撰写特定稿件的方法,属于信息处理领域。本发明根据标题相似度对文本文档进行聚类处理,基于TF‑IDF建立VSM模型,将文本转换为向量模式,使本发明方案中考虑了词义,对中文文稿撰写来说更加合理化和准确;利用MI对向量空间模型VSM进行降维处理,选取提供给机器学习分类器的有效特征;通过机器学习分类器智能学习,获得初稿文章,通过ILP处理器对初稿文章语句进行整合,对整篇文章中的重复句子进行自动去除,形获得质量更好的终稿文章;本发明在撰写中文稿件时能够考虑语义、词义,具有智能学习的优点,通过对语句的优化以整合文章,本发明可适用于多种领域的特定稿件撰写。 | ||
搜索关键词: | 一种 自动 撰写 特定 稿件 方法 | ||
【主权项】:
一种自动撰写特定稿件的方法,其特征在于:包括如下步骤:步骤S1、确定待撰写特定稿件的所属领域,通过网络爬虫从网络爬取所述待撰写特定稿件所属领域的k个网页,k>2,每个所述网页具有n个子标题,n≥2,提取所述网页的第i个子标题以及第i个子标题的正文,并生成第i个文本文档,其中,第i个子标题作为第i个文本文档的标题,第i个子标题的正文作为第i个文本文档的正文,i=1、.....、n;步骤S2、设定标题相似度阈值,对比任意两个所述文本文档的标题相似度,将所述文本文档聚类处理为多个聚类,每个所述聚类中任意两个所述文本文档的标题相似度大于等于标题相似度阈值,每个所述聚类以所述聚类中出现频率最高的标题作为所述聚类的名称;步骤S3、统计各个所述聚类中所述文本文档的数量,根据各个所述聚类中所述文本文档数量由多至少顺序对各个所述聚类排序,选取前m个所述聚类的名称作为所述待撰写特定稿件的子标题,其中,m=(n1+n2+.....+nk)/k,k表示从网络爬取所述网页的数量,nk表示第k个网页的子标题数量;步骤S4、通过TF‑IDF算法分别对前m个所述聚类中的所述文本文档进行处理,获取每个所述聚类中所述文本文档的特征词,将所述聚类中的所述文本文档建立向量空间模型VSM,利用MI对向量空间模型VSM进行降维处理,选取提供给机器学习分类器的有效特征;步骤S5、经过步骤S4处理的前m个所述聚类,将每个所述聚类对应唯一一个所述机器学习分类器,将每个所述聚类中的所述文本文档分成两个部分,其中,对一部分所述文本文档进行标注,训练所述机器学习分类器;另一部分所述文本文档用于测试训练过的所述机器学习分类器,得到相应的错误率,根据错误率对所述机器学习分类器进行调整;步骤S6、构造所述待撰写特定稿件的查询语句,根据所述查询语句从网络爬取备选内容,将经过调整的所述机器学习分类器对爬取的所述备选内容的段落进行分类,输出形成初稿文章;步骤S7、所述机器学习分类器对所述备选内容进行分类,输出形成所述初稿文章时,根据所述备选内容中的段落被所述机器学习分类器判定作为该所述机器学习分类器输出的概率,所述机器学习分类器对输出的段落进行评分,且将该段落的分数作为该段落内每个句子的分数;根据所述初稿文章中各个句子的分数,建立目标函数和第一约束条件,通过ILP处理器对所述初稿文章语句进行整合,形成终稿文章;其中,目标函数为:argmaxΣsixsiesi]]>∀sixsi∈{0,1}]]>式中,表示句子指示变量,表示句子的分数,si表示句子编号。第一约束条件为:(xsi+xsj)sim(xsi,xsj)≤1]]>式中,和分别表示两个句子。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于李鹏,未经李鹏许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611207712.6/,转载请声明来源钻瓜专利网。
- 上一篇:对应库中的指令对应库
- 下一篇:一种广告拦截方法及移动终端