[发明专利]一种基于emoji的跨语言情感分析方法和装置有效
申请号: | 201810678889.7 | 申请日: | 2018-06-27 |
公开(公告)号: | CN109325112B | 公开(公告)日: | 2019-08-20 |
发明(设计)人: | 刘譞哲;陈震鹏;沈晟;陆璇;马郓;黄罡 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100871 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标语言 情感分析 语言 情感分类模型 方法和装置 标记文本 标记资源 表征模型 情感极性 文本 词向量 文档 情感分类 社交平台 语料翻译 新文本 原文 翻译 缓解 预测 创建 | ||
本发明涉及一种基于emoji的跨语言情感分析方法和装置。该方法包括:1)基于收集的大量源语言和目标语言的未标记文本创建词向量;2)基于词向量选出未标记文本中包含emoji的文本,通过包含emoji的文本建立emoji预测任务,从而获得句表征模型;3)将标记过情感极性的源语言语料翻译成目标语言,利用句表征模型得到原文本和翻译得到的文本的文档表征,然后利用文档表征训练情感分类模型;4)利用训练得到的情感分类模型,对目标语言的新文本进行情感分类,得到其情感极性。本发明使用在社交平台上易爬得的emoji文本来实现跨语言情感分析,能够缓解标记资源稀少、不同语言中标记资源不平衡的问题。
技术领域
本发明是一种基于emoji的跨语言情感分析方法和装置,属于软件技术领域。
背景技术
近年来,随着互联网的发展,网络上涌现出了大量的用户生成文本,例如博客、微博、论坛讨论、评论等。大量的用户生成文本引发了研究者对其进行自动情感分析的研究兴趣。自2000年初以来,情感分析已经成为自然语言处理领域最热门的研究课题之一,并被广泛应用于Web挖掘、数据挖掘、信息检索、普适计算和人机交互等研究领域。研究者对于情感分析工作的热情很大程度上归功于其较高的实际应用价值。情感分析技术已被应用于客户反馈跟踪、销售预测、产品排名、股市预测、意见整合、选举预测等诸多真实场景,并产生较大的实际效益。
可是,目前多数情感分析研究都开展在英文文本上。这种研究现状很大程度上是因为早期情感分析工作主要由英语为母语的国家的研究者开展。这些研究提供了一些有标注的语料库和基准数据集,为研究人员进行后期研究提供了便利。进一步地,研究者们都开始聚焦在英文文本研究上,从而导致了其他语言上情感分析工作的停滞不前。然而,据统计,仅有25.3%的互联网用户使用英语(https://www.internetworldstats.com/stats7.html)。这表明其他语言也拥有庞大的用户群体,在其他语言上开展情感分析工作同样至关重要。这样的研究现状促使一批研究者开始进行跨语言情感分析研究。该研究旨在利用资源丰富的语言(即源语言,通常指英语)中的标注数据来训练一种通用模型,该跨语言情感分析模型同样可以对标注数据资源不丰富语言(即目标语言,如日语)的文本进行情感分类。
跨语言情感分析的关键在于寻找出一个能连接源语言与目标语言之间的词汇鸿沟的媒介。大部分的主流工作选择源语言和目标语言的平行文本来作为这一媒介。平行文本即对于同一语义,两种语言的不同的文本表述。平行语言的生成高度依赖于机器翻译技术。但目前的翻译技术在翻译过程中往往会丢失原语句中的情感信息,给跨语言情感分析造成困难。例如,图1所示,英语中的“blacksheep”往往用于指“害群之马”,但在翻译成日语后,只保留了原来英语的语义信息(黑色的羊),丢失了讽刺的情感意味。另外,虽然源语言(英语)与其他语言相比,有标注的资源的数据量相对丰富,但事实上,这些数据在如今的深度学习算法面前仍然太局限,往往无法很好地学习出词句的向量表征。因此,急需找到一个既能缓解翻译过程中的出现情感丢失的问题,又能弥补标记数据的缺失的新的学习方式。一种可能的解决方案即是远程监督学习。远程监督学习技术需要研究者人工定义规则来生成弱标签数据,通过对大量弱标签数据的学习来达到接近使用真实标记的数据训练的结果。
发明内容
针对目前跨语言情感分析技术领域存在的问题,本发明的目的是基于emoji的广泛使用提供一种半监督的表征学习框架来解决跨语言情感分析的方法和装置。
对于跨语言情感分类问题,选择的弱标签需要满足两个特性。一方面,该标签需要在各语言中都被广泛使用。另一方面,该标签能够隐式地透露出情感信息。这样的选择标准下,本发明使用emoji(表情符号)作为弱标签。Emoji因其没有语言障碍且能用于表达不同情感的特质,被不同的性别和国家的用户广泛使用,可以将其作为各语言中文本真实情感的弱标签。因此,本发明提出了一种基于emoji的跨语言情感分析表征学习方法,旨在利用源语言(英语)的资源训练出能分类目标语言的文本情感的模型。
本发明采用的技术方案如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810678889.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:展现控制方法、装置及系统
- 下一篇:舆情数据采集方法及装置