[发明专利]数据筛选策略生成方法和装置有效
申请号: | 201510367386.4 | 申请日: | 2015-06-29 |
公开(公告)号: | CN104933165B | 公开(公告)日: | 2018-06-05 |
发明(设计)人: | 刘孟焱 | 申请(专利权)人: | 努比亚技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国 |
地址: | 518057 广东省深圳市南山区高新区北环大道9018*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 筛选 数据筛选 策略生成 生成数据 样本数据 匹配 策略生成装置 方法和装置 结果计算 判定数据 终端 | ||
1.一种数据筛选策略生成方法,其特征在于,所述数据筛选策略生成方法包括以下步骤:
获取各个样本数据的对应的第一筛选结果,以及各个所述样本数据对应筛选参数的第二筛选结果;
基于所述第一筛选结果以及所述第二筛选结果计算各个筛选参数的筛选优先级;
基于所述筛选优先级生成数据筛选策略;
所述基于所述第一筛选结果以及所述第二筛选结果计算各个筛选参数的筛选优先级的步骤包括:
基于所述第一筛选结果相同的样本数据的数量计算标准样本值;
基于所述第二筛选结果相同的样本数据的数量计算各个筛选参数对应的信息熵;
基于各个所述筛选参数的信息熵以及所述标准样本值计算各个所述筛选参数对应的信息增益值;
基于所述信息增益值生成各个所述筛选参数的筛选优先级,其中所述信息增益值越大所述筛选优先级越大。
2.如权利要求1所述的数据筛选策略生成方法,其特征在于,所述基于所述第一筛选结果相同的样本数据的数量计算标准样本值的公式如下:
K(P1,P2,……,Pn)=-P1 log2(P1)-P2 log2(P2)-……-Pn log2(Pn);
其中,Pn为各个样本数据中第一筛选结果相同的样本数据的个数与所述样本数据总个数的比值。
3.如权利要求2所述的数据筛选策略生成方法,其特征在于,所述基于所述第一筛选结果相同的样本数据的数量计算标准样本值的步骤包括:
依次提取每个筛选参数对应的第二筛选结果;
在每次提取到每个筛选参数对应的第二筛选结果时,获取第一筛选结果相同的样本数据的数量作为第一计算值;
获取第一筛选结果相同的样本数据中第二筛选结果相同的样本数据的数量作为第二计算值;
基于所述第一计算值和第二计算值计算提取的所述筛选参数对应的信息熵;
继续提取下一筛选参数对应的第二筛选结果,直至提取完所有样本数据的筛选结果。
4.如权利要求3所述的数据筛选策略生成方法,其特征在于,所述基于所述第一计算值和第二计算值计算提取的所述筛选参数对应的信息熵的计算公式如下:
W=H1 K(Q1,Q2,……,Qn)+H2 K(Q1,Q2,……,Qn)+……+HnK(Q1,Q2,……,Qn);
其中,所述Hn为所述第一计算值与样本数据总数之间的比值,Qn为第二计算值与第一计算值之间的比值。
5.一种数据筛选策略生成装置,其特征在于,所述数据筛选策略生成装置包括:
获取模块,用于获取各个样本数据的对应的第一筛选结果,以及各个所述样本数据对应筛选参数的第二筛选结果;
计算模块,用于基于所述第一筛选结果以及所述第二筛选结果计算各个筛选参数的筛选优先级;
生成模块,用于基于所述筛选优先级生成数据筛选策略;
所述计算模块包括:
计算子模块,用于基于所述第一筛选结果相同的样本数据的数量计算标准样本值;基于所述第二筛选结果相同的样本数据的数量计算各个筛选参数对应的信息熵,以及基于各个所述筛选参数的信息熵以及所述标准样本值计算各个所述筛选参数对应的信息增益值;
生成子模块,用于基于所述信息增益值生成各个所述筛选参数的筛选优先级,其中所述信息增益值越大所述筛选优先级越大。
6.如权利要求5所述的数据筛选策略生成装置,其特征在于,所述计算子模块计算标准样本值的公式如下:
K(P1,P2,……,Pn)=-P1 log2(P1)-P2 log2(P2)-……-Pn log2(Pn);
其中,Pn为各个样本数据中第一筛选结果相同的样本数据的个数与所述样本数据总个数的比值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于努比亚技术有限公司,未经努比亚技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510367386.4/1.html,转载请声明来源钻瓜专利网。