[发明专利]一种基于人工智能的多模态语义识别服务接入方法在审
申请号: | 202011036983.6 | 申请日: | 2020-09-28 |
公开(公告)号: | CN112201228A | 公开(公告)日: | 2021-01-08 |
发明(设计)人: | 黄晨宇 | 申请(专利权)人: | 苏州贝果智能科技有限公司 |
主分类号: | G10L15/18 | 分类号: | G10L15/18;G10L15/25;G10L15/02;G10L15/08;G10L25/57 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 215000 江苏省苏州市昆山市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 人工智能 多模态 语义 识别 服务 接入 方法 | ||
本发明公开了一种基于人工智能的多模态语义识别服务接入方法,包括基于多模态对齐的语音情感识别的模型,首先通过语音进行识别,识别时,通过视频设备、录音设备进行语音的收集,收集好的语音信息先进行分类,分类后的语音进行特征标记,然后将收集好的语音进行分析,利用双向长短期记忆模型对音频基于帧进行高维特征表示。本发明利用多模态模型比单一模态训练出的模型更精准,所以即使在实际使用中只使用一个模态输入,由多模态训练得到的模型也会优于单模态训练得到的模型,对不同模态的关联融合进行中间层特征融合和最后层的融合时,每种模态的特征识别产生各自的置信度,从而在互相融合时将置信度作为贡献的权重。
技术领域
本发明涉及语义识别领域,特别涉及一种基于人工智能的多模态语义识别服务接入方法。
背景技术
语音情感识别是一个非常具有挑战性的问题,因为人们总是以微妙和复杂的方式传达情感。对于语音情感识别,当前的方法主要包括:1)直接通过语音信号特征;2)通过语音识别的文本特征;3)融合音频和文本的多模态特征,在进行语义识别时,无法做到更加准确的识别,导致语义识别差,无法更好的理解语义。
发明内容
本发明的目的在于提供一种基于人工智能的多模态语义识别服务接入方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于人工智能的多模态语义识别服务接入方法,包括基于多模态对齐的语音情感识别的模型,首先通过语音进行识别,识别时,通过视频设备、录音设备进行语音的收集,收集好的语音信息先进行分类,分类后的语音进行特征标记,然后将收集好的语音进行分析,利用双向长短期记忆模型对音频基于帧进行高维特征表示,且对语音识别出的文字进行特征化,对特征化的语音与相对应的文字进行匹配,匹配后的语音按照情绪特征进行分类,最后对识别出来的文字和信息进行整理,将整理的信息再次特征化。
优选的,基于多模态融合的训练,进行人工智能的语音训练,人机互动包含语音、图片、视频和文字,从帧序列中提取出语音和图像视频特征,按语音对应的视频片段,在各个中间阶段的不同模态之间的特征可以融合,在最后把不同模态的特征合并连接在一起又会形成混合的特征向量,最后融合的特征集,可以用支持向量机自动进行二分类。
优选的,语音识别相关的视频在于嘴部的图像和运动信息,将嘴部作为感兴趣区域,嘴部感兴趣区域都缩放到归一化的像素尺寸,进一步降维,用1-4帧连续视频作为输入,对应3-10帧连续语音的帧,对每个模态,在时间上进行特征平均值归一化,时间序列的导数用归一化线性斜率表示,体现了信号的变化特征,在训练和实际使用中,对缺失一种模态,即缺失语音、文字和视频的情况,依靠其它一种或二种模态进行工作,语音来自独立麦克风或从视频中提取,文字来自字幕、用户打字输入,图像视频中识别出的字符。
优选的,多模态语义识别服务还包括自然语言理解引擎,自然语言理解引擎采用多模态推理技术,对于多个领域的客服知识库,引擎采用文本聚类技术自动将知识点分为不同的子类,在每个子类知识库的推理过程中采用不同的参数,表现为多个相互独立的引擎模态,细化推理颗粒度,同时在软件技术上采用多线程方式。
优选的,融合文字与图像视频深度学习神经网络,利用文字和视觉之间的交叉相关提供用户问题的答案,多模态神经网络模型包含图像神经网络用于描述图像信息,另一个文字语义匹配神经网络进行文本信息中的单词的语义构建,两种模态之间的融合体现在由模型学习图像与文本之间的关联匹配关系。
优选的,基于手机拍照时的彩色图像和手机自带的激光测距得到的深度图,二者通过双模态信息的融合,实现机器人对目标的理解和分类。
优选的,基于文字的深度学习网络和基于图像的网络,在各层的中间特征层面进行多模态融合,并且在最后的输出进行融合,从而对图文并茂的内容进行综合理解,可以理解用户表达的喜怒哀乐情绪。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州贝果智能科技有限公司,未经苏州贝果智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011036983.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:USB外设、话机设备及话机系统
- 下一篇:石灰改良膨胀土击实试验方法