[发明专利]文本中关键段落的检测方法及装置有效
申请号: | 201910821973.4 | 申请日: | 2019-09-02 |
公开(公告)号: | CN110532563B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 熊玉竹;周以晴;侯绍东 | 申请(专利权)人: | 苏州美能华智能科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06N3/044 |
代理公司: | 苏州谨和知识产权代理事务所(特殊普通合伙) 32295 | 代理人: | 叶栋 |
地址: | 215123 江苏省苏州市苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请揭示了一种文本中关键段落检测方法及装置,该方法包括将待检测文本进行切分复制处理得到段落集;将各个段落集均输入至标签预测模型中,得到各个段落的标签;去除段落集中无效的首端预定字数和尾端预定字数,将剩余的有效文本的标签拼接在一起,得到段落集所对应的原始的各段落的标签;筛选出标签为B和I的原始段落作为关键段落。本申请通过将待检测文本进行切分,得到较短的段落集,利用标签预测模型对每个段落集中的段落进行预测,得到各段落的标签,为了降低切分段落集所导致的起始边界处上文信息缺失和结尾边界处下文信息缺失,使用重叠操作进行边界处的切分优化,提高了段落预测的准确率,大大降低了段落标签预测的计算复杂度。 | ||
搜索关键词: | 文本 关键 段落 检测 方法 装置 | ||
【主权项】:
1.一种文本中关键段落检测方法,其特征在于,所述方法包括:/n将待检测文本进行切分复制处理,形成至少两个段落集,每个段落集包括预定数量的段落,相邻两个段落集中在前段落集的尾端预定字数的文本与在后段落集的首端预定字数的文本相同;/n将各个段落集均输入至符合条件的标签预测模型中,得到所述待检测文本的各段落集所包含的各个段落的标签,所述标签包括B、I和O,所述B用于指示标签为B的段落包含关键信息且上一段落不包含关键信息,所述I用于指示标签为I的段落包含关键信息且上一段落也包含关键信息,所述O用于指示标签为O的段落不包含关键信息;/n去除所述段落集中无效的首端预定字数和尾端预定字数,将剩余的有效文本的标签拼接在一起,得到所述段落集所对应的原始的各段落的标签;/n筛选出标签为B和I的原始段落,将被筛选出的所述原始段落确认为所述待检测文本的关键段落。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州美能华智能科技有限公司,未经苏州美能华智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910821973.4/,转载请声明来源钻瓜专利网。