[发明专利]一种基于深度学习的古诗文自动识别方法有效
申请号: | 201910492084.8 | 申请日: | 2019-06-06 |
公开(公告)号: | CN110188781B | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 张灿;殷亚云 | 申请(专利权)人: | 焦点科技股份有限公司 |
主分类号: | G06V30/19 | 分类号: | G06V30/19;G06V10/774;G06V10/82;G06V10/764;G06F16/951;G06F40/30 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈建和 |
地址: | 210032 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于深度学习的古诗文自动识别方法,其特征在于,包括收集训练语料、数据预处理、特征向量嵌入、神经网络训练和古诗文自动识别的步骤。本发明构建文本分类形式的深度神经网络模型,自动识别文本句子是否为古诗文类型,同时能有效避免错别字降低识别准确率。能满足作诗质量检测、文学作品分类管理、自动采集古诗文等应用场景对古诗文自动识别技术的需求。 | ||
搜索关键词: | 一种 基于 深度 学习 古诗文 自动识别 方法 | ||
【主权项】:
1.一种基于深度学习的古诗文自动识别方法,其特征在于,包括收集训练语料、数据预处理、特征向量嵌入、神经网络训练、古诗文自动识别的步骤,具体为:步骤1,收集训练语料:利用爬虫程序爬取互联网网站提供的古诗文作为正样本集;收集现代汉语句子语料作为负样本集;统计正样本集中古诗文句子长度,根据正样本集中句子长度的集中分布范围,选择95%以上句子的句长分布值,以此数值修改负样本集中的句子长度的分布;统计正样本集与负样本集中句子数量,如数量不等,则以数量较少的一方样本数量为准,保持正负样本数量比例为1:1;步骤2,数据预处理:使用拼音生成工具标注正、负样本集中每个句子的拼音,以标签“0”和“1”标注句子类别,其中标签“0”代表现代汉语,标签“1”代表古诗文;将句子与相应的拼音、类别标签合并为训练样本,即Samplei(S,P,T)由句子(S)、拼音(P)、类别标签(T)组成,随机打散样本集合中的样本顺序,并按8:1:1的比例划分成训练集、验证集、测试集;步骤3,特征向量嵌入:统计样本集中古诗文短句的字数,选择最长句包含的字数作为样本集中句子和拼音长度值,记为L,将数据集中每个样本的句子与拼音分别固定为该长度L,然后将二者拼接,转化成固定长度为2L的特征向量,向量中每一维度代表单个汉字或单个拼音;步骤4,神经网络训练:构建神经网络结构,网络结构依次包含Embedding层、CNN卷积层、Bactch Normalization层、激活层、CNN最大池化层和全连接层;所述embedding层用于将古诗文的文本编码成数值向量;所述CNN卷积层用于提取古诗文诗句的文本特征;所述Batch Normalization层用于提升模型训练效率,加速模型拟合;所述激活层用于加入非线性因素提高模型表达能力;所述CNN最大池化层用于提取古诗文诗句文本中最重要的特征;所述全连接层用于将文本特征转换成类别预测的概率;初始化神经网络中的权重和超参数,输入训练数据集,迭代训练神经网络至损失函数收敛;步骤5,古诗文自动识别:加载步骤4中训练得到的用于古诗文识别的深度学习模型,输入待识别语句,运行模型预测语句是否为古诗文类型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司,未经焦点科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910492084.8/,转载请声明来源钻瓜专利网。