[发明专利]一种基于强化学习的无人机空战机动决策方法有效
申请号: | 201810197989.8 | 申请日: | 2018-03-12 |
公开(公告)号: | CN108319286B | 公开(公告)日: | 2020-09-22 |
发明(设计)人: | 杨啟明;张建东;吴勇;史国庆;朱岩;徐建城;莫文莉 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G05D1/08 | 分类号: | G05D1/08;G05D1/10 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 顾潮琪 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于强化学习的无人机空战机动决策方法,首先创建飞机平台的运动模型;然后分析影响空战态势的各主要因素,在运动模型和空战态势因素分析的基础上,设计空战机动决策的动态模糊Q学习模型,确定强化学习的各要素和算法流程;对空战机动决策的状态空间进行模糊化作为强化学习的状态输入;选取典型空战动作作为强化学习基本行动,通过各模糊规则的触发强度加权求和实现连续行动空间的覆盖;在构建的空战优势函数为基础通过设置权重和叠加奖惩值的方法设置了强化学习的回报值。本发明可有效提高无人机进行空战机动自主决策的能力,具有较高的鲁棒性和自主寻优性,在不断的仿真和学习中无人机所做的决策水平不断提高。 | ||
搜索关键词: | 一种 基于 强化 学习 无人机 空战 机动 决策 方法 | ||
【主权项】:
1.一种基于强化学习的无人机空战机动决策方法,其特征在于包括下述步骤:步骤一,构建与目标一对一空战的无人机运动模型
假设速度矢量与机体轴向一致,式中x、y、z表示飞机在惯性坐标系中的位置,v为飞机速度,
表示v在三个坐标轴方向的分量,θ为航迹角,α为航向角,g为重力加速度,无人机的控制量为[ηx,ηz,φ],其中ηx为沿着速度方向的过载,ηz为沿着机顶方向过载,φ为绕速度矢量的滚转角;建立角度优势函数
其中![]()
和
分别表示无人机和目标的方位角,即无人机与目标的速度向量分别与距离向量R的夹角;建立距离优势函数
其中,R=||R||,即距离向量的模,Rw表示无人机的武器射程,σ为标准偏差;建立速度优势函数
其中,武器相对目标的最佳攻击速度
vmax表示无人机的速度上限,vT表示目标速度;建立高度优势函数
其中,hop表示无人机对目标的最佳攻击高度差,Δz为无人机与目标的高度差,σh为最佳攻击高度标准偏差;得到综合空战优势函数
其中
ωR、ωv、ωh分别是角度、距离、速度、高度优势函数的权重,各权重之和为1;步骤二,构建空战机动决策的动态模糊Q学习模型;1)确定空战机动决策强化学习的状态空间,包括无人机和目标的方位角
和
无人机与目标的距离R、无人机与目标的速度vU和vR以及无人机和目标之间的高度差Δz;以上述
R、vU、vR、Δz六个量作为强化学习的输入状态,记为si,采用高斯函数作为各个输入状态的模糊隶属函数,将每一个状态的取值空间划分为多个高斯函数的叠加组合,如果状态si具有n个隶属函数,则输入状态属于其中第j个隶属函数的隶属度
其中cij和σij是状态si第j个高斯隶属函数的中心和宽度;2)选择典型值构建空战中无人机的基本动作,所述的基本动作包括匀速直线运动、最大加速度飞行、最大减速飞行、最大过载左转、最大过载右转、最大过载爬升和最大过载俯冲,对应的无人机控制量[ηx,ηz,φ]分别为[0,1,0]、![]()
和
分别将七个基本动作的控制量输入记为ak,k=1,2,…7;3)以各个状态si分属不同的隶属函数的组合为条件,以执行的7个基本动作并配属相应的动作权值为结果构建规则;通过Q学习算法,以空战优势函数的大小作为回报值进行强化学习,调整每一条规则中所执行各个动作的权值,使得所选择的动作能在规则条件所表述的状态下让无人机取得空战优势;在一条规则中,设定一个状态隶属于其中一个隶属函数,则定义该条规则中各状态隶属于其设定隶属函数的隶属度乘积为该条规则的触发强度,规则l的触发强度
将触发值归一化,设有m条规则,归一化后规则l的触发强度![]()
表示对所有规则的触发强度求和,Φl表示规则l的触发强度Φl;定义规则l中基本动作的控制量输入ak的权值为
根据ε‑greedy算法针对7个
选取一个控制量作为规则l的行动值al,则在t时刻全局行动的输出表征为各条规则的行动值al与其触发强度ρl的乘积之和,即
其中
表征t时刻的状态输入;定义Q值为当前状态St下执行行动At后,所有后续获得的回报值的累加的期望值;采用线性近似的方法对Q值进行估计,![]()
表示规则l中所选取行动
所对应的权值;对于最优行动的Q值的估计定义为各规则中动作权值的最大值与规则触发值的加权和,即
其中maxa∈A qt(Sl,a)表示规则l中各动作权值中的最大值,
表示规则l的触发强度;以空战优势函数为基础强化学习回报值;根据设定的门限值a和b,0<a<b<1,当优势函数值ft>b时,无人机进入优势地位,强化学习回报值rt=ft+β,其中β为设定的奖励值;当优势函数值a<ft<b时,无人机处于均势位置,强化学习的回报值rt=ft;当优势函数值ft<a时,无人机处于劣势,强化学习的回报值rt=ft+ζ,其中ζ为设定的惩罚值;采用资格迹记录过去的学习过程中各规则中各动作的选择情况;定义规则l在时间t时动作ak的资格迹
其中γ是强化学习中对未来回报的折扣率,0<γ≤1,λ是资格迹随时间衰减的遗忘率;在1条规则中,所有7个基本动作的资格迹都是先对上一时刻的资格迹进行衰减计算,然后对所选择那个动作的资格迹加上本条规则的触发强度;定义TD误差δt+1=rt+1+γVt(St+1)‑Qt(St,At),即根据t+1时刻的回报值和最优动作值函数的估计之和,减去上一时刻的Q值,以此来反映动作At的优劣;更新各规则中各动作的权值qt+1(Sl,ak)=qt(Sl,ak)+ξδt+1et(Sl,ak),l=1,2,…m,k=1,2,…7,其中ξ表示强化学习的学习率;当前状态下所有规则中触发强度最大的值Φl小于设定的门限值K时,认为此时所有现存的规则不能有效反映当前状态,增加一条规则;在新规则产生时,对每一个输入状态进行判断,看当前输入状态si与其最邻近的隶属函数的中心值cij距离的大小,如果距离值小于设定门限,则在该状态维度不产生新的隶属函数;如果距离值大于门限,则产生一个隶属函数,该隶属函数的的中心值即为输入状态si,隶属函数的宽度
d为调节系数;4)基于动态模糊Q学习的空战机动决策强化学习的算法流程;设当前时刻为t+1且无人机已经执行了动作At并已获得强化学习回报rt+1,则算法运行步骤如下:①根据无人机和目标当前的运动状态计算出态势中的各个输入量si(i=1,2,…,6)组成状态St+1,再计算当前状态St+1的各规则触发强度,进而计算Vt(St+1);②计算TD误差δt+1;③调整各规则内动作的权值qt+1;④进行规则完整性检查,如果不满足规则完整性,则生成一条新规则;⑤根据ε‑greedy算法,基于各规则中更新后的权值qt+1选择各个规则的动作,再产生t+1时刻的动作输出At+1(St+1);⑥计算出当前时刻Q函数的估计值Qt+1(St+1,At+1),用于下一步TD误差的计算;⑦更新各规则中动作的资格迹,用于下一时间步的参数更新;⑧无人机执行At+1(St+1),空战状态转移至St+2,获得回报rt+2,算法转入步骤①再次循环;步骤三,将构建的空战机动决策动态模糊Q学习模型在不同的空战场景下进行学习训练,多次训练后将模型生成的模糊规则库作为无人机空战机动的决策依据,依据规则判断在不同的态势下应该执行哪类机动,完成自主决策的过程。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810197989.8/,转载请声明来源钻瓜专利网。