[发明专利]一种基于Hadoop的并行化PLSA方法无效
申请号: | 201210071443.0 | 申请日: | 2012-03-19 |
公开(公告)号: | CN102779025A | 公开(公告)日: | 2012-11-14 |
发明(设计)人: | 高阳;金龑;杨育彬;商琳 | 申请(专利权)人: | 南京大学;南京大学江阴信息技术研究院 |
主分类号: | G06F9/38 | 分类号: | G06F9/38;G06F17/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 夏雪 |
地址: | 210046 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Hadoop的并行化PLSA方法,包括如下步骤:将数据存储到分布式数据存储环境中;对需要更新计算的概率模型文件进行切分,作为每一个mapper的输入;通过mapreduce对整体的EM过程中的每一次迭代更新过程进行计算:通过mapper端的map函数和reducer端的reduce函数以及键值对的发送,计算EM过程中的每一次迭代更新过程;每次更新后的迭代结果作为下次迭代的输入;迭代直到所有的结果达到收敛。本发明通过mapreduce进行的并行化,能够将PLSA应用到较大规模的数据当中,并减少整体运行的时间,提高运算效率。 | ||
搜索关键词: | 一种 基于 hadoop 并行 plsa 方法 | ||
【主权项】:
一种基于Hadoop的并行化PLSA方法,其特征在于,包括如下步骤:(1)将数据存储到分布式数据存储环境中;(2)对需要更新计算的概率模型文件进行切分,作为每一个mapper的输入;(3)通过mapreduce对整体的EM过程中的每一次迭代更新过程进行计算:通过mapper端的map函数和reducer端的reduce函数以及键值对的发送,计算EM过程中的每一次迭代更新过程;(4)每次更新后的迭代结果作为下次迭代的输入;(5)迭代直到所有的结果达到收敛。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学;南京大学江阴信息技术研究院,未经南京大学;南京大学江阴信息技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210071443.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种中空式电池
- 下一篇:避雷器智能在线监测系统