[发明专利]一种面向文本数据库的矩阵加权负模式挖掘方法有效
申请号: | 201310244012.4 | 申请日: | 2013-06-19 |
公开(公告)号: | CN103279570A | 公开(公告)日: | 2013-09-04 |
发明(设计)人: | 黄名选;黄发良 | 申请(专利权)人: | 广西教育学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广西南宁公平专利事务所有限责任公司 45104 | 代理人: | 黄永校 |
地址: | 530023 广*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种面向文本数据库的矩阵加权负模式挖掘方法,通过将待处理的文本信息进行预处理,构建基于向量空间模型的文本数据库和特征词库;从文本数据库中提取矩阵加权候选项集,挖掘矩阵加权频繁项集和负项集;再挖掘矩阵加权频繁项集中的矩阵加权强关联规则和矩阵加权强负关联规则以及矩阵加权负项集中的矩阵加权强负关联规则。与现有技术相比,本发明不仅考虑各个项目不同的重要性,还充分重视每个项目在不同的事务记录中具有不同的权值;不仅能挖掘矩阵加权正模式,更重要的是能挖掘更多的负模式,采用矩阵加权支持度-置信度-相关度框架衡量矩阵加权正负模式,避免相互矛盾的模式,获得更加实际合理的矩阵加权正负模式。 | ||
搜索关键词: | 一种 面向 文本 数据库 矩阵 加权 模式 挖掘 方法 | ||
【主权项】:
一种面向文本数据库的矩阵加权负模式挖掘方法,其特征在于,包括如下步骤:(1)文本预处理阶段:将待处理的文本信息进行分词、去除停用词、提取特征词并计算其权值,构建基于向量空间模型的文本数据库和特征词库;(2)矩阵加权频繁项集和负项集挖掘阶段,包括以下步骤A和步骤B:A、从文本数据库中提取矩阵加权候选1_项集,并挖掘矩阵加权频繁1_项集和负1_项集;具体步骤按照A1~A3进行:A1、从文本数据库中提取矩阵加权候选1_项集;A2、累加矩阵加权候选1_项集在文本数据库中的权值总和及其支持数,计算其支持度和矩阵加权1_项集k权值估计;A3、将矩阵加权候选1_项集中支持度大于或等于最小支持度阈值的矩阵加权频繁1_项集加入到频繁项集集合;将矩阵加权候选1_项集中支持度小于最小支持度阈值的矩阵加权负1_项集加入到负项集集合;将其权值总和小于矩阵加权1_项集k权值估计的矩阵加权候选1_项集加入到矩阵加权项集k权值估计负1_项集集合中;B、从候选2_项集开始,按照步骤B1~B9进行操作:B1、将候选(i‑1)_项集进行Apriori连接,生成矩阵加权候选i_项集;所述的i≥2;B2、从矩阵加权候选i_项集提取含有矩阵加权k权值估计负项集的矩阵加权负i_项集,并在文本数据库中累加其支持数,将其支持数不为0的项集加入负项集集合;B3、从矩阵加权候选i_项集中删除B2步骤的矩阵加权负i_项集,得到新的矩阵加权候选i_项集,并判断新的矩阵加权候选i_项集是否为空集,若为空集,则结束挖掘矩阵加权正负项集模式,并直接进入步骤(3),否则,转入B4步骤;B4、计算新的矩阵加权候选i_项集在文本数据库中的支持数;B5、删除新的矩阵加权候选i_项集中支持数为0的项集;B6、累加新的矩阵加权候选i_项集中每个候选i_项集在文本数据库中的权值总和,计算其支持度和矩阵加权k权值估计;B7、若新的矩阵加权候选i_项集中的候选i_项集支持度小于最小支持度阈值,提取该候选i_项集为矩阵加权负i_项集加入矩阵加权负项集集合中,否则,作为矩阵加权频繁i_项集加入到矩阵加权频繁项集集合中;B8、将新的矩阵加权候选i_项集中其权值总和小于其矩阵加权k权值估计的候选i_项集加入到矩阵加权项集k权值估计负i_项集集合中;B9、将i的值加1,继续B1~B8步骤,直至项集挖掘完毕;(3)矩阵加权强负关联规则模式挖掘阶段,包括以下步骤a和步骤b:a、挖掘矩阵加权频繁项集中的矩阵加权强负关联规则模式,具体步骤按照a1~a4进行:a1、求出矩阵加权频繁项集的所有真子集;a2、当频繁项集的真子集中的任意两个真子集I1和I2的交集为空集,且真子集I1和I2的项目个数之和等于其原频繁项集的项目个数,则计算它们的矩阵加权相关度;a3、当矩阵加权相关度<1,并且I1、I2、I1∪﹁I2和﹁I1∪I2的矩阵加权支持度都不小于矩阵加权最小支持度阈值,I1∪﹁I2和﹁I1∪I2的置信度都不小于矩阵加权最小置信度阈值,则得到矩阵加权负关联规则I1→﹁I2和﹁I1→I2;a4、当矩阵加权相关度>1,且I1、I2、I1∪I2和﹁I1∪﹁I2的矩阵加权支持度都不小于矩阵加权最小支持度阈值,I1∪I2和﹁I1∪﹁I2的置信度都不小于矩阵加权最小置信度阈值,则得 到矩阵加权正关联规则I1→I2和矩阵加权强负关联规则﹁I1→﹁I2;b、挖掘矩阵加权负项集中矩阵加权强负关联规则,具体步骤按照b1~b4进行:b1、求出矩阵加权负项集的所有真子集;b2、负项集的真子集中的任意两个真子集I1和I2的交集为空集,且真子集I1和I2的项目个数之和等于其原负项集的项目个数,则计算它们的矩阵加权相关度;b3、当矩阵加权相关度<1,并且I1、I2、I1∪﹁I2和﹁I1∪I2的矩阵加权支持度都不小于矩阵加权最小支持度阈值,I1∪﹁I2和﹁I1∪I2的置信度都不小于矩阵加权最小置信度阈值,则得到矩阵加权负关联规则I1→﹁I2和﹁I1→I2;b4、当矩阵加权相关度>1,且I1、I2和﹁I1∪﹁I2的矩阵加权支持度都不小于矩阵加权最小置信度阈值,﹁I1∪﹁I2的置信度都不小于矩阵加权最小置信度阈值,则得到矩阵加权强负关联规则﹁I1→﹁I2;至此,正负模式挖掘结束;所述的﹁I1、﹁I2、I1∪﹁I2以及I1→﹁I2中的符号“﹁”为负相关符号,﹁I1表示在事务处理中不出现I1的事件,I1∪﹁I2表示子集I1和子集I2是负相关关联,I1→﹁I2表示I1的出现使得I2不会出现。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西教育学院,未经广西教育学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310244012.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种LED垂直芯片结构及制作方法
- 下一篇:一种对网站进行无障碍检测的方法