[发明专利]基于序列标注建模的多粒度分词方法及系统有效
申请号: | 201710790736.7 | 申请日: | 2017-09-05 |
公开(公告)号: | CN107729312B | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 张民;李正华;龚晨 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06N3/04 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 杨慧林 |
地址: | 215000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于序列标注建模的多粒度分词方法与系统,提供了一种采用机器学习的方式获取多粒度标签序列的方法及系统,本发明所述的方法,包括:将至少一种单粒度标注数据集中的句子分别转化为遵守其他n‑1种分词规范的分词序列,将每一个句子对应的n种遵守不同规范分词序列转化为多粒度分词层次结构,根据预定的编码方法以及多粒度分词层次结构,得到每一个句子的每一个字的多粒度标签,进而得到每一个句子的多粒度标签序列;基于所述的包含句子和对应多粒度标签序列的数据集,通过训练序列标注模型,得到多粒度序列标注模型。本发明首次提出了多粒度分词的概念,能够快速、自动的获取多粒度分词层次结构。 | ||
搜索关键词: | 基于 序列 标注 建模 粒度 分词 方法 系统 | ||
【主权项】:
一种基于序列标注建模的多粒度分词方法,其特征在于,包括:将至少一种单粒度标注数据集中的句子分别转化为遵守其他n‑1种分词规范的分词序列,被转化后的句子对应n种不同规范的分词序列,其中n≥2,且n为正整数;将每一个句子对应的n种遵守不同规范分词序列转化为多粒度分词层次结构,所述的多粒度分词层次结构各层分别为句子、不能进一步与词语合并成更粗粒度的词语、词语、字;根据预定编码方法确定多粒度分词层次结构中每一个字的多粒度标签,进而得到每一个句子对应的多粒度标签序列;根据句子对应的多粒度标签序列对序列标注模型进行数据训练,得到多粒度分词序列标注模型;基于所述的多粒度分词序列标注模型得到句子的多粒度标签序列。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710790736.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种税务地图管理的方法、系统及终端设备
- 下一篇:一种生成信用金的方法和系统