[发明专利]一种批量流式计算系统参数动态配置方法有效

专利信息
申请号: 201910050828.0 申请日: 2019-01-20
公开(公告)号: CN109828836B 公开(公告)日: 2021-04-30
发明(设计)人: 梁毅;曾绍康;苏醒;于泽群;梁岩德;伍佳名;丁治明 申请(专利权)人: 北京工业大学
主分类号: G06F9/48 分类号: G06F9/48;G06F9/50;G06F9/455
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 张慧
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种批量流式计算系统参数动态配置方法,包括:样本收集、模型构建、最优方案生成、在线匹配和参数优化;其中,样本收集、模型构建和最优方案生成在后台阶段完成;在线匹配和参数优化于在线阶段完成。本方法根据每种参数与数据处理响应延迟的皮尔森相关显著性大小,选取对应用性能影响较大的核心参数集;在参数约简的前提下,选取支持向量回归方法构建应用性能模型,该模型可量化评估给定数据到达速率和相关参数配置下,数据处理的响应延迟性能;在性能建模的基础上,选取启发式遗传算法,在较大的解空间中快速搜索优化配置方案。
搜索关键词: 一种 批量 计算 系统 参数 动态 配置 方法
【主权项】:
1.一种批量流式计算系统参数动态配置方法,其特征在于:分为六个步骤:核心参数选取、样本收集、模型构建、最优方案生成、在线匹配和参数优化;其中,核心参数选取在应用运行之前模拟测试;样本收集、模型构建和最优方案生成步骤在后台阶段完成;在线匹配和参数优化步骤于在线阶段完成;做如下假设:1)外部数据源的数据到达符合泊松分布;2)网络带宽足够,设收集样本的批次数的阈值Nbmax、预测函数拟合次数阈值Ctmax、种群中个体数阈值Npmax、进化次数阈值Cpmax、样本收集周期t;具体为:(1)核心参数选取选取对批量流式计算系统性能影响较大的参数集合;1.1)令核心参数集合为PC,初始化在批量流式计算系统的所有参数中筛选得到备选参数集合PA,PA={pai|1≤i≤n};1.2)选取低、中、高三种数据到达速率,分别表示为λl、λm、λh。对于每一个pai∈PA,执行步骤1.2.1)~1.2.4);1.2.1)在pai取值范围内随机选取k个值,表示为V={vj|1≤j≤k}。其余参数在缺省的情况下,分别在数据到达速率为λl、λm、λh下,依次选取V中的数值vj进行k次流式应用模拟实验,获取相应的数据处理响应延迟集合LL={llj|1≤j≤k}、LM={lmj|1≤j≤k}、LH={lhj|1≤j≤k};1.2.2)利用公式(1)~(3),分别计算λl、λm、λh三种数据到达速率下,pai与批量流式计算系统性能的皮尔森相关系数rl、rm、rh1.2.3)利用公式(4)计算pai的平均皮尔森相关系数1.2.4)若且显著性检验的p值小于0.05,则设置PC←PC∪{pai};(2)样本收集2.1)依据步骤(1)选取的核心参数集合PC={pci|1≤i≤N},令样本表S表示为S={sm|sm=(λm,v1m,v2m,...,vNm,tcm),tcm=lm‑tbm,1≤m≤D},其中,m为样本数据编号,D为样本数据总数,λm为第m个样本的数据到达速率,v1m,v2m,...,vNm为第m个样本对应核心参数pc1,pc2,...pcN的值,tcm为第m个样本的数据计算时间,是由数据处理响应延迟lm减去批次划分间隔tbm得到的;2.2)令Nb为批量流式计算系统当前收集样本的批次数,设置Nb=0;2.3)从批量流式计算系统既有组件采集流式应用当前批次的数据到达速率、核心参数pc1,pc2,...pcN的值、数据处理响应延迟和批次划分间隔,分别表示为λ′、v1′v2′...,vN′、l′、tb′;2.4)遍历样本表S,若满足λm=λ′,v1m,v2m,...,vNm=v1′,v2′,...,vN′,则利用公式(5)求取两个样本数据计算时间的均值并设置否则,设置S←S∪{(λ′,v1′,v2′,...,vN′,l′‑tb′)};2.5)Nb←Nb+1,若Nb=Nbmax,则执行步骤(3);否则,执行步骤2.3);其中,Nbmax为批量流式计算系统收集样本的批次数的阈值;(3)模型构建3.1)定义训练样本集T,初始化定义测试样本集F,初始化对每一个sm∈S中的λm、v1m,v2m,...,vNm作Z‑score标准化处理,处理后得到的数值构成新的元组(λzm,vz1m,vz2m,...,vzNm)。对于每一个元组(λzm,vz1m,vz2m,...,vzNm),在(0,10]内随机生成正整数r,若r≤8,设置T←T∪{(λzm,vz1m,vz2m,...,vzNm),tcm};否则,设置F←F∪{(λm,v1m,v2m,...,vNm),tcm};3.2)构建的性能模型表示为f:(λ,pc1,pc2,...pcN)→tc。对T中样本(x1,y1),(x2,y2),...,(x|T|,y|T|),xi=(λzi,vz1i,vz2i,...,vzNi)(1≤i≤|T|),yi=tci(1≤i≤|T|),设回归函数为式(6)。其中,w和b是待确定的参数,φ(x)表示一个非线性变换。令Ct为性能模型当前训练次数,设置Ct←0;f(x)=wTφ(x)+b                  (6)3.3)利用支持向量回归方法解决上述回归预测问题,等价于求解式(7)。其中,C为大于0的常数,ξi、ξi*为松弛变量。利用拉格朗日函数和对偶原理,可以得到式(8)的对偶问题。其中,Qi,j=φT(xi)φ(xj),I=[1,...,1]T,α、α*为拉格朗日乘子。求解此二次型规划可求得α的值,同时求得利用KKT(Karush‑Kuhn‑Tucker)条件计算出常值偏差b,即根据上述推导可得回归函数f(x)的表达式为式(11)。其中,K(x,xi)=φT(x)φ(xi)为一个核函数。利用式(12)径向基函数核函数实现;K(xi,xj)=exp(‑γ||xi‑xj||2),γ>0                      (12)3.4)对F中样本,(x1,y1),(x2,y2),...,(x|F|,y|F|),xl=(λl,v1l,v2l,...,vNl)(1≤l≤|F|),yl=tcl(1≤l≤|F|),利用公式(13)计算平均误差3.5)若则模型构建成功,执行步骤4.1);否则,执行步骤3.7);3.6)Ct←Ct+1,若Ct>Ctmax,则构建失败,执行步骤(7);否则,执行步骤3.7);其中,Ctmax为预测函数拟合次数阈值;3.7)调整核函数参数γ,设置f(x)中γ←0.9γ,执行步骤3.4);(4)最优方案生成4.1)令性能预测表为R,初始化令最优参数配置方案表为B,初始化4.2)令流式应用的数据到达速率最小值为λl,最大值为λh,选取速率步长为stepλ,则选取的离散化数据到达速率集合如式(14);4.3)对核心参数集合PC={pci|1≤i≤N}中每一个pci,令参数取值范围为[dli,dhi],选取步长stepi,则选取的核心参数pci的离散化取值集合如式(15);4.4)对于每一个λi∈Λ,遍历所有的核心参数取值的组合形如d1,d2,...,dN(di∈Di),利用步骤(3)构建的性能模型求取在该核心参数设置下的数据处理时间设置4.5)给定数据到达速率,生成最优参数配置方案的目标函数可被定义如公式(16);其中约束条件定义为处理响应延迟限制,tb为批次划分间隔,;min(tb+tc)s.t.tc≤tb≤1.2tc                               (16)4.6)利用遗传算法解决上述问题,对于每一个选取的数据到达速率离散值λi∈Λ;(5)在线匹配5.1)定义参数配置方案为C,初始化5.2)当批量流式计算应用的一个批次结束后,从既有组件采集数据到达速率λc;5.3)令λc除以stepλ向下取整的值为v,令u=λc%stepλ,其中stepλ为数据到达速率选取步长。利用公式(19),将λc映射到离散值λd5.4)若满足λi=λd,C←(b1i,b2i,...,bNi);否则,执行步骤(7)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910050828.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top