[发明专利]一种基于深度学习的古诗文自动识别方法有效

申请号：	201910492084.8	申请日：	2019-06-06
公开（公告）号：	CN110188781B	公开（公告）日：	2022-07-22
发明（设计）人：	张灿;殷亚云	申请（专利权）人：	焦点科技股份有限公司
主分类号：	G06V30/19	分类号：	G06V30/19;G06V10/774;G06V10/82;G06V10/764;G06F16/951;G06F40/30
代理公司：	南京瑞弘专利商标事务所(普通合伙) 32249	代理人：	陈建和
地址：	210032 江苏省南京***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于深度学习的古诗文自动识别方法，其特征在于，包括收集训练语料、数据预处理、特征向量嵌入、神经网络训练和古诗文自动识别的步骤。本发明构建文本分类形式的深度神经网络模型，自动识别文本句子是否为古诗文类型，同时能有效避免错别字降低识别准确率。能满足作诗质量检测、文学作品分类管理、自动采集古诗文等应用场景对古诗文自动识别技术的需求。
搜索关键词：	一种基于深度学习古诗文自动识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于深度学习的古诗文自动识别方法，其特征在于，包括收集训练语料、数据预处理、特征向量嵌入、神经网络训练、古诗文自动识别的步骤，具体为：步骤1，收集训练语料：利用爬虫程序爬取互联网网站提供的古诗文作为正样本集；收集现代汉语句子语料作为负样本集；统计正样本集中古诗文句子长度，根据正样本集中句子长度的集中分布范围，选择95％以上句子的句长分布值，以此数值修改负样本集中的句子长度的分布；统计正样本集与负样本集中句子数量，如数量不等，则以数量较少的一方样本数量为准，保持正负样本数量比例为1:1；步骤2，数据预处理：使用拼音生成工具标注正、负样本集中每个句子的拼音，以标签“0”和“1”标注句子类别，其中标签“0”代表现代汉语，标签“1”代表古诗文；将句子与相应的拼音、类别标签合并为训练样本，即Sample_i(S,P,T)由句子(S)、拼音(P)、类别标签(T)组成，随机打散样本集合中的样本顺序，并按8:1:1的比例划分成训练集、验证集、测试集；步骤3，特征向量嵌入：统计样本集中古诗文短句的字数，选择最长句包含的字数作为样本集中句子和拼音长度值，记为L，将数据集中每个样本的句子与拼音分别固定为该长度L，然后将二者拼接，转化成固定长度为2L的特征向量，向量中每一维度代表单个汉字或单个拼音；步骤4，神经网络训练:构建神经网络结构，网络结构依次包含Embedding层、CNN卷积层、Bactch Normalization层、激活层、CNN最大池化层和全连接层；所述embedding层用于将古诗文的文本编码成数值向量；所述CNN卷积层用于提取古诗文诗句的文本特征；所述Batch Normalization层用于提升模型训练效率，加速模型拟合；所述激活层用于加入非线性因素提高模型表达能力；所述CNN最大池化层用于提取古诗文诗句文本中最重要的特征；所述全连接层用于将文本特征转换成类别预测的概率；初始化神经网络中的权重和超参数，输入训练数据集，迭代训练神经网络至损失函数收敛；步骤5，古诗文自动识别:加载步骤4中训练得到的用于古诗文识别的深度学习模型，输入待识别语句，运行模型预测语句是否为古诗文类型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司，未经焦点科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910492084.8/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度学习的古诗文自动识别方法有效

专利文献下载