[发明专利]一种基于深度学习的古诗文自动识别方法有效

专利信息
申请号: 201910492084.8 申请日: 2019-06-06
公开(公告)号: CN110188781B 公开(公告)日: 2022-07-22
发明(设计)人: 张灿;殷亚云 申请(专利权)人: 焦点科技股份有限公司
主分类号: G06V30/19 分类号: G06V30/19;G06V10/774;G06V10/82;G06V10/764;G06F16/951;G06F40/30
代理公司: 南京瑞弘专利商标事务所(普通合伙) 32249 代理人: 陈建和
地址: 210032 江苏省南京*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于深度学习的古诗文自动识别方法,其特征在于,包括收集训练语料、数据预处理、特征向量嵌入、神经网络训练和古诗文自动识别的步骤。本发明构建文本分类形式的深度神经网络模型,自动识别文本句子是否为古诗文类型,同时能有效避免错别字降低识别准确率。能满足作诗质量检测、文学作品分类管理、自动采集古诗文等应用场景对古诗文自动识别技术的需求。
搜索关键词: 一种 基于 深度 学习 古诗文 自动识别 方法
【主权项】:
1.一种基于深度学习的古诗文自动识别方法,其特征在于,包括收集训练语料、数据预处理、特征向量嵌入、神经网络训练、古诗文自动识别的步骤,具体为:步骤1,收集训练语料:利用爬虫程序爬取互联网网站提供的古诗文作为正样本集;收集现代汉语句子语料作为负样本集;统计正样本集中古诗文句子长度,根据正样本集中句子长度的集中分布范围,选择95%以上句子的句长分布值,以此数值修改负样本集中的句子长度的分布;统计正样本集与负样本集中句子数量,如数量不等,则以数量较少的一方样本数量为准,保持正负样本数量比例为1:1;步骤2,数据预处理:使用拼音生成工具标注正、负样本集中每个句子的拼音,以标签“0”和“1”标注句子类别,其中标签“0”代表现代汉语,标签“1”代表古诗文;将句子与相应的拼音、类别标签合并为训练样本,即Samplei(S,P,T)由句子(S)、拼音(P)、类别标签(T)组成,随机打散样本集合中的样本顺序,并按8:1:1的比例划分成训练集、验证集、测试集;步骤3,特征向量嵌入:统计样本集中古诗文短句的字数,选择最长句包含的字数作为样本集中句子和拼音长度值,记为L,将数据集中每个样本的句子与拼音分别固定为该长度L,然后将二者拼接,转化成固定长度为2L的特征向量,向量中每一维度代表单个汉字或单个拼音;步骤4,神经网络训练:构建神经网络结构,网络结构依次包含Embedding层、CNN卷积层、Bactch Normalization层、激活层、CNN最大池化层和全连接层;所述embedding层用于将古诗文的文本编码成数值向量;所述CNN卷积层用于提取古诗文诗句的文本特征;所述Batch Normalization层用于提升模型训练效率,加速模型拟合;所述激活层用于加入非线性因素提高模型表达能力;所述CNN最大池化层用于提取古诗文诗句文本中最重要的特征;所述全连接层用于将文本特征转换成类别预测的概率;初始化神经网络中的权重和超参数,输入训练数据集,迭代训练神经网络至损失函数收敛;步骤5,古诗文自动识别:加载步骤4中训练得到的用于古诗文识别的深度学习模型,输入待识别语句,运行模型预测语句是否为古诗文类型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司,未经焦点科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910492084.8/,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top