[发明专利]顾及数据不确定性的关联规则显著性检验方法及装置有效
申请号: | 201510076329.0 | 申请日: | 2015-02-12 |
公开(公告)号: | CN105989095B | 公开(公告)日: | 2019-09-06 |
发明(设计)人: | 史文中;张安舒 | 申请(专利权)人: | 香港理工大学深圳研究院 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 张全文 |
地址: | 518000 广东省深圳市南山区高新*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明适用于数据挖掘技术领域,提供了顾及数据不确定性的关联规则显著性检验方法及装置。所述方法包括:获取关联规则,并判断获取的所述关联规则是否为高效规则;若所述关联规则不为所述高效规则,则认为所述关联规则为虚假规则;若所述关联规则为所述高效规则,则对所述关联规则进行统计检验,并判断所得检验统计量的值是否低于预设显著性水平,若是,则接受所述关联规则为真实规则;若否,则认为所述关联规则为虚假规则。本发明基于统计健全检验法,能将族错误率控制在较低水平;修正随机数据误差对所述统计检验运算的影响,由此显著恢复由于随机数据误差引起的统计检验结果中真实规则的丢失,大大提高了关联规则挖掘结果的可靠性。 | ||
搜索关键词: | 顾及 数据 不确定性 关联 规则 显著 检验 方法 装置 | ||
【主权项】:
1.一种顾及数据不确定性的关联规则显著性检验方法,其特征包括:获取关联规则,并判断获取的所述关联规则是否为高效规则;若所述关联规则不为所述高效规则,则认为所述关联规则为虚假规则;若所述关联规则为所述高效规则,则对所述关联规则进行统计检验,并判断所得检验统计量p的值是否低于预设显著性水平,若是,则接受所述关联规则为真实规则;若否,则认为所述关联规则为虚假规则;所述统计检验涉及的每一个数据模式为若干数据项的集合,每个数据项指的是数据中一个属性中的一个类别,每个属性的误差概率分布为已知;所述对所述关联规则进行统计检验,计算检验统计量的值包括:对所述统计检验涉及的每一个数据模式,将其中指定数据项所对应的属性的误差概率分布表达为误差矩阵,所述误差矩阵包括指定属性的全部k个类别之间的误差分布,其中,指定属性指的是所述指定数据项对应的属性,k为大于1的整数;根据所述误差矩阵,对数据误差的传播进行建模,得到所述k个类别的观测支持度分布期望及方差;根据所估计的k个类别的观测支持度分布以及所述误差矩阵,计算所述k个类别的真实支持度估计值;以ci表示所述统计检验涉及的数据模式中的指定数据项,将所述k个类别中的每个类别与所述数据模式中除ci以外的所有数据项求并集,得到k个并集,其中包含ci的并集即为所述数据模式;根据所述k个类别的真实支持度估计值,以及k个并集在数据中的支持度观测值,计算所述数据模式的真实支持度估计值;根据所述统计检验所涉及数据模式的真实支持度估计值,计算所述统计检验的第一参数估计真值、第二参数估计真值、第三参数估计真值以及第四参数估计真值,以对第一参数观测值、第二参数观测值、第三参数观测值以及第四参数观测值受到数据误差的影响进行修正;根据所述第一参数估计真值、第二参数估计真值、第三参数估计真值以及第四参数估计真值计算所述检验统计量p的值;所述检验统计量p由费氏精确检验得出,检验中的四个关键计算参数a,b,c,d为:a=s(X∪{y})b=s(X)‑s(X∪{y})c=s(X‑{xm})∪{y}‑s(X∪{y})d=s(X‑{xm})‑s((X‑{xm})∪{y})+s(X∪{y})其中a表示第一参数,b表示第二参数,c表示第三参数,d表示第四参数,xm为被检验是否冗余的项,xm∈X,s表示各数据模式的观测支持度,a~d的真值为a0,b0,c0,d0,其中所述真值a0,b0,c0,d0无随机数据误差影响,根据
的各关键计算参数的内容可变化I和ci的值,将
应用于a~d,以获得估计真值![]()
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于香港理工大学深圳研究院,未经香港理工大学深圳研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510076329.0/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置