[发明专利]基于卷积神经网络的车辆识别与跟踪方法有效
申请号: | 201711250146.1 | 申请日: | 2017-12-01 |
公开(公告)号: | CN108171112B | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 宋彬;康煦;孙峰瑶;秦浩 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 程晓霞;王品华 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于卷积神经网络车辆识别与跟踪方法。解决了现有技术难以在高精度情况下保证即时性的问题,克服了分类结果不准确、跟踪识别时间长等不足。实现步骤为:构建并训练快速区域卷积神经网络;对监控视频初始帧进行处理与识别;离线训练跟踪卷积神经网络;提取与选择最佳候选框;生成样本队列;在线迭代训练;获取目标图像,实现即时车辆识别与跟踪。本发明将Faster‑rcnn与跟踪卷积神经网络相结合,使用卷积神经网络提取了车辆健壮性极好、代表性强的高层特征;通过网络融合以及在线‑离线训练交替进行的方式,在保证高精确度的基础上,缩短了跟踪识别所需时间。识别结果准确,跟踪时间更短。可用于配合普通摄像头完成车辆的即时识别与跟踪。 | ||
搜索关键词: | 基于 卷积 神经网络 车辆 识别 跟踪 方法 | ||
(1)构建并训练快速区域卷积神经网络:
(1a)预训练图片处理:对上千张预训练图片中的小汽车、卡车、公交车、自行车与行人打标签,记录每幅图片中每个物体的位置与类别,存于xml文件中;
(1b)构建快速区域卷积神经网络:将准备好的预训练图片与标签文件送入快速区域卷积神经网络进行训练,经过4万次迭代,得到训练好的快速区域卷积神经网络,该网络包括5个卷积‑池化特征提取层、3个RPN卷积层、1个感兴趣池化层、3个全连接层、1个分类层和1个坐标层;
(2)初始帧处理与识别:将监控视频的第一帧图像输入到训练好的快速区域卷积神经网络中,识别出第一帧场景中存在的小汽车、公交车、大卡车、自行车以及行人;
(3)离线训练跟踪卷积神经网络模型,该网络包括5个卷积‑池化特征提取层、1个感兴趣池化层、2个全连接层、1个分类层:
(3a)将第一帧图像经过跟踪卷积神经网络后的第5层特征提取出来;
(3b)利用当前帧所得坐标,在每个目标区域周围进行高斯采样,得到感兴趣的候选框,计算候选框与目标框的交叠率,如果生成的候选框与某个目标框的交叠率高于0.7且比与其他目标框交叠率都高,此候选框被对应为这一目标框;如果候选框与所有目标框的交叠率都低于0.5,则该候选框被标为背景;
(3c)将候选框坐标在神经网络中的感受域进行映射,得到其在第5层特征图上的位置,映射公式为下式:
其中,coorimg为每个目标候选框四个顶点在原图中的坐标,coorf为每个目标候选框的四个顶点在第5层特征图中的坐标,stride为感受域的宽度,定义为图像从神经网络输入到第5层特征图尺寸缩小的整倍数;
(3d)利用候选框中的映射坐标提取特征图上的感兴趣区域,将其下采样到7×7大小的尺寸,并与(3b)中相对应的每个标签共同组成预训练集,输入跟踪卷积神经网络的后3层进行训练;
(3e)迭代执行步骤(3d)30次,得到预训练好的跟踪模型;
(4)提取与选择最佳候选框:
将后续每一帧图像经过跟踪卷积神经网络的前5层得到特征图,在上一帧得到的目标位置提取候选区域,送入预训练好的跟踪卷积神经网络的后三层;取输出分数最大的5个候选框,对其四个顶点取平均值得到这一帧的目标位置;
(5)生成样本队列:
执行步骤(3b)(3c),按照候选框坐标提取特征图上的感兴趣区域(像素尺寸为大小),标签为1的感兴趣区域存入正样本集的队列中,标签为0的感兴趣区域存入负样本集的队列中;
(6)在线迭代训练:
每迭代10帧,随机选取样本队列中的正样本与负样本,输入跟踪卷积神经网络的后3层进行在线训练;不断重复执行步骤(4)(5)(6)直至监控视频结束。
2.根据权利要求1所述的基于卷积神经网络的车辆识别与跟踪方法,其特征在于:步骤(1b)中所述构建的快速区域卷积神经网络的步骤如下:(1b.1),将任意尺寸大小的监控图像输入卷积层conv1,用64个卷积核,对其进行块大小为3×3像素和步长为1像素的卷积操作,得到64通道特征图;
(1b.2),将卷积层conv1输出的64通道特征图输入到池化层pool1,得到64通道特征图;
(1b.3),将池化层pool1输出的64通道特征图输入到卷积层conv2,用128个卷积核,对其进行块大小为3×3像素和步长为1像素的卷积操作,得到128通道的特征图;
(1b.4),将卷积层conv2输出的128通道特征图输入到池化层pool2,得到128通道特征图;
(1b.5),将池化层pool2输出的128通道特征图输入到卷积层conv3,用256个卷积核,对其进行块大小为3×3像素和步长为1像素的卷积操作,得到256通道的特征图;
(1b.6),将卷积层conv3输出的256通道特征图输入到池化层pool3,得到256通道特征图;
(1b.7),将池化层pool3输出的256通道特征图输入到卷积层conv4,用512个卷积核,对其进行块大小为3×3像素和步长为1像素的卷积操作,得到512通道的特征图;
(1b.8),将卷积层conv4输出的512通道特征图输入到池化层pool4,得到512通道特征图;
(1b.9),将池化层pool4输出的512通道特征图输入到卷积层conv5,用512个卷积核,对其进行块大小为3×3像素和步长为1像素的卷积操作,得到512通道的特征图;
(1b.10),将卷积层conv5输出的512通道特征图输入卷积层rpn_conv,用512个卷积核,对其进行块大小为3×3像素和步长为1像素的卷积操作,得到512通道的特征图;
(1b.11),将卷积层conv5输出的512通道特征图输入卷积层rpn_cls_score,用18个卷积核,对其进行块大小为3×3像素和步长为1像素的卷积操作,得到18通道的特征图;
(1b.12),将卷积层rpn_conv输出的512通道特征图输入卷积层rpn_bbox_pred,用36个卷积核,对其进行块大小为3×3像素和步长为1像素的卷积操作,得到36通道的特征图;
(1b.13),将卷积层rpn_cls_score输出的18通道特征图的输出结果按照大小进行排序,找到分数最高的前300个位置,在卷积层rpn_bbox_pred输出的对应位置找到对应值计算出300个候选区域的位置坐标;
(1b.14),将卷积层conv5输出的512通道特征图和上一步计算出的300个候选区域坐标输入感兴趣区域池化层roi_pool,在conv5输出的512通道特征图上选取300个候选区域;
(1b.15),将感兴趣区域池化层roi_pool输出的300个512通道候选特征图输入全连接层fc6,输出300个维度为4096的特征向量;
(1b.16),将全连接层fc6输出的300个维度为4096的特征向量输入全连接层fc7,输出为300个维度为4096的特征向量;
(1b.17),将全连接层fc7输出的300个维度为4096的特征向量输入全连接层fc8,输出为300个维度为6的特征向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711250146.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种计算机人像识别系统
- 下一篇:一种身份认证的方法和系统