基于MCN的起重吊装指挥手势信号自动识别

张淦，周晓洁，郭辰颢，原毅璨，吴迪，郭聖煜

(中国地质大学(武汉) a. 经济管理学院; b.机械与电子信息学院，湖北武汉 430074)

起重作业具有设备体积庞大、操作视野盲区多、作业覆盖范围广和作业环境复杂等特点，人 - 机交互过程中容易发生如物体打击类等严重的安全事故[1]，属于典型的高风险施工场景。起重吊装指挥手势信号是该场景下信号工与起重机驾驶员之间常用的交流方式，用于嘈杂施工环境下传递信息，消除盲区碰撞等施工风险。但是，实际交流过程中常因手势信号不规范、交流视野被遮挡和人员注意力不集中等问题引发安全事故[2]。因此，探究起重吊装指挥手势信号的自动识别，降低因交流问题引发安全事故的概率，对提高工程安全管理水平具有重要意义。

起重吊装指挥手势信号主要由手臂和手的动作共同完成。识别指挥手势信号需要对动作发出者的空间信息和运动信息进行提取,再根据这两种信息进行动作分类。当前提取这两种信息的方式主要有接触式识别和非接触式识别两种[3]。相比于基于穿戴式传感器设备的接触式识别[4]，基于计算机视觉(Computer Vision,CV)的非接触式识别抗环境干扰能力强，识别准确率高，以及识别过程对被识别者正常工作影响小，适用于起重作业过程的手势信号自动识别。当前利用CV技术识别指挥手势信号的研究被广泛应用于交通[5]、军事[6]、采矿业[7]等领域。在工程领域的应用主要集中在工人姿态评估[8]、绩效评估、施工现场火焰检测[10]等方面。针对人 - 机交互高风险场景下指挥手势信号识别的研究正在兴起[11]。Wang等对比了各领域指挥手势识别的研究，讨论了在工程领域利用CV技术识别指挥手势信号的可行性[12]，并提出基于ResNeXt的指挥手势信号目标识别机制[13]。这些研究重点在于准确识别指挥手势信号，在识别速度上关注不足。文中将综合考虑指挥手势信号识别的准确率和速度，使其满足实际工程应用中实时性等方面的需求。

本文按照国家标准分类指挥手势信号，提出基于混合卷积神经网络(Mixed Convolutional Neural Network，MCN)的起重吊装指挥手势信号识别模型，建立指挥手势信号识别 - 确认机制。提高信号传递的准确性和稳定性，全过程记录信号员和驾驶员的行为，预防起重作业中因交流问题导致事故，方便事故后的分析和责任认定，提高工程安全管理水平。

2019年12月10日国家市场监督管理总局和国家标准化管理委员会联合发布中华人民共和国国家标准GB/T 5082—2019《起重机手势信号》[14]，标准正文中规定了用于起重吊装操作的25种指挥手势信号。表1列出了其中部分指挥手势信号。将指挥手势信号按照是否为连续动作，划分成动态指挥手势信号和静态指挥手势信号2种，具体划分情况如表2所示，可以看出起重吊装操作的指挥手势信号大多由连续的动作组成，故不同种类的指挥手势信号需要根据其空间特征和运动特征进行区分。

表1 指挥手势信号(部分)

表2 动静态指挥手势信号划分情况

传统2D卷积神经网络无法提取视频帧之间包含的运动信息[15]。预先提取光流图[16]或人体骨骼关键点[17]等，再通过2D卷积提取运动信息，这类模型虽展现了良好的性能，但复杂的预处理增加了计算量，导致识别速度慢。借助体感摄像设备采集人体骨骼关键点[18]，存在识别距离的限制。3D卷积神经网络[15](3D Convolutional Neural Network, C3D)中的3D卷积核可以同时提取单个视频帧的空间信息和多个相邻视频帧之间的运动信息。3D卷积核是2D卷积核在时间轴上的拓展，将多帧视频帧图像在z轴上进行叠加，得到一个图像组，3D卷积核以滑动窗口的形式分别在图像组的x,y,z轴上逐一进行卷积计算，得到特征图像组。C3D的计算流程如图1所示。

图1 C3D计算流程

Tran等[19]认为C3D的高层特征相比于低层特征包含较少的运动信息，基于此构建了MCN。MCN将C3D中高层的卷积层(Convolutional Layer,Conv)由3D卷积核换成2D卷积核。以微小的性能损失，大幅度减少网络参数量。同时为保证深度网络的性能表现，引入残差块结构(ResBlock)。

MCN由1个底层模块(Stem Module, SM)、2个3D残差卷积模块(3D Residual Convolutional Module, 3D-RCM)，6个2D残差卷积模块(2D Re-sidual Convolutional Module, 2D-RCM)，1个平均池化模块(Average Pooling Module, APM)、1个全连接模块(Full Connected Module, FCM)，共11个模块组成。由FCM根据RCM提取的空间信息和运动信息，对视频动作进行识别分类。RCM的具体结构如图2所示(图中：Conv为2D/3D卷积层；
BN为批归一化层；
ReLU为激活函数层)，MCN的网络结构如图3所示。MCN具体参数如表3所示。

图2 RCM结构

表3 MCN结构详述

图3 MCN结构

起重吊装指挥手势信号识别模型的建立包括指挥手势信号数据集构建和模型训练两部分。将MCN在指挥手势信号数据集中训练后，得到起重吊装指挥手势信号识别模型。

3.1 指挥手势信号数据集

按照国家标准中的规范动作，构建指挥手势信号数据集。为提高模型的泛化能力，每种指挥手势信号由多名信号员在不同环境下，以左侧45°、正视、右侧45°三个角度，以不同速率执行多次。指挥手势信号数据集如图4所示。

图4 指挥手势信号数据集样例(部分)

3.2 模型训练

模型训练前需要对数据进行预处理操作：(1)对输入视频进行抽帧处理；
(2)为减少模型参数，且不损失视频帧中主要空间信息和运动信息，将视频帧尺寸缩放为h×w=128×171；
(3)提高模型的泛化能力和抗干扰性。在不影响动作流畅的前提下，将128×171的图像在一定波动范围内随机裁剪成112×112；
(4)考虑到起重吊装指挥手势信号的动作持续时间稍长，为保证模型能够学习到完整的运动信息，将16帧视频帧组合成一个图像组，即l=16。

由于MCN采用3D卷积核的网络，参数量较大，训练需要大量数据，否则无法发挥网络的完整性能，同时训练过程中可能出现过拟合现象。为此，对模型进行迁移学习，在大型基准数据集Kinetics-400上进行预训练，再将模型在指挥手势信号数据集上微调，以提高模型在小型数据集上的表现。

训练过程中，选择交叉熵函数作为损失函数。选择随机梯度下降算法作为梯度优化算法，其中初始学习率为10-3，动量为0.9，权重衰减为5×10-4。为避免出现过拟合或梯度消失问题，训练过程中添加学习率衰减机制，衰减周期为10，衰减系数为0.9。批处理量为4，训练周期为60。

为了利用起重吊装指挥手势识别模型降低因指挥手势信号不规范、交流视野被遮挡、人员注意力不集中等问题引发安全事故的概率，提高安全管理水平。笔者构建了指挥手势信号识别 - 确认机制。该机制的框架由作业准备模块、信号识别模块、信号确认模块、数据记录模块四部分组成。机制流程如图5所示。

图5 起重吊装指挥手势信号识别 - 确认机制流程

首先，在起重吊装作业开始前，驾驶员需对作业环境进行检查，判断在自己的视野中信号工的位置和姿态是否清晰可辨。如果难以辨识，需要向现场安全管理人员申请使用视觉辅助工具，在信号工周围布置监控设备。同时在起重机驾驶舱处布置监控设备，监控视角与驾驶员相同。驾驶员辅以监控画面观察信号工的指挥命令。待驾驶员能够清晰观察到信号工的姿态及位置后，申请作业开始。

信号员发出吊装指挥手势信号，摄像头实时采集指挥手势信号视频图像，然后利用基于MCN的起重吊装指挥手势信号识别模型对指挥手势信号进行识别，将模型识别的结果与直接观察的结果进行对比。若结果相同则执行命令，同时保存视频片段、模型识别结果和操作内容，用于未来事故调查。若结果不同，则说明存在问题，需要保存问题视频片段，用于后期问题分析：若是模型问题，需要对模型进一步优化；
若是指挥手势信号不规范问题，需要对信号员进行动作纠正指导。

起重吊装作业环境复杂，操作端与指挥端未必处于同一水平面，有线传输视频数据难以满足应用需求。操作端与指挥端处于同一连通空间中，操作端与指挥端之间的距离较近，建筑结构对无线信号的干扰较小，采用无线传输方式可以满足起重吊装作业中视频图像实时传输的需求。

该机制的设计不会干扰起重机吊装作业的正常进行，可以辅助驾驶员明确操作指令，纠正信号员不规范的指挥手势信号动作，对吊装作业全过程进行视频监控。若后期发生安全事故，可根据视频片段、模型识别结果、驾驶员操作内容三部分，进行事故分析和事故追责。明确事故责任，减少由于信号沟通问题引起的安全风险，提高施工现场安全管理水平。

5.1 构建数据集

选取国家标准中操作开始、正常停止、匀速起升、慢速起升、匀速下降5种指挥手势信号，再加上无任何指令动作的站立动作，共6种动作种类。构建指挥手势信号数据集，将数据集按照7∶1∶2的比例，划分成训练集(Train)、检验集(Val)和测试集(Test)，共计1495个视频数据，各类动作的样本数满足均匀分布。数据集划分情况如表4所示。用以验证基于MCN的起重吊装指挥手势信号识别模型在起重机作业中的适用性。

表4 数据集划分情况

5.2 模型效果检验

MCN的识别性能如表5所示，MCN在测试集上的准确率为97.13%。除“立正动作”外，各手势信号种类预测结果的准确率均高于96%。各手势信号种类的召回率均高于95%，其中，对于动作特征显著的正常停止和操作开始两种手势信号的召回率达到了98%以上。MCN的识别效果如图6所示。

表5 MCN的识别准确率统计 %

图6 MCN识别效果

MCN与其他3D卷积类网络的性能对比如表6所示。MCN的参数量为C3D的14.7%，R3D的34.7%，R(2+1)D的36.7%。在硬件条件有限的情况下，MCN在准确率、识别速度和参数上都优于其他3D卷积类网络。实际识别中，在使用GTX 1650加速条件下，MCN网络运算速度平均73 ms，平均13.7 fps。在使用RTX 2060 SUPER加速条件下，网络速度可以达到36.9 ms，实时识别时可达27.1 fps。在不使用GPU加速的情况下，运算速度平均333.3 ms，平均3.0 fps。MCN网络在硬件条件允许的情况下，基本具有实时识别的能力。

表6 MCN与其他3D卷积类网络的性能对比情况

本文主要研究结论如下：

(1)基于MCN的起重吊装指挥手势信号识别模型在各种环境下均表现出了较好的识别准确率，同时模型参数量少，识别速度快，适用于起重机作业中吊装指挥手势信号的实时识别。

(2)指挥手势信号识别 - 确认机制可有效提高起重吊装信号的传递准确性和稳定性，对不规范的指挥手势信号动作进行纠正，降低起重机作业过程中因交流问题导致工程安全事故发生的风险。对信号员和驾驶员的行为进行全过程监控，发生安全事故后，可根据视频片段、模型识别结果、驾驶员操作内容三部分，进行事故分析和事故追责，提高安全管理质量。

(3)文中研究仍存有一些不足，包括识别画面中若运动物体较多，会对识别准确性造成一定影响；
数据集的动作种类有待丰富；
指挥端在多场景变换时，需要根据变换程度，人工调整视频画面采集角度和距离。未来研究拟搭建更轻量化的模型，对视频中动作发出者的区域进行抽取，明确识别对象，减少外界噪音对准确度的影响；
丰富模型的动作识别种类；
指挥端多场景变换视频时，实现视频画面采集角度和距离的自动调整。

猜你喜欢手势吊装卷积基于3D-Winograd的快速卷积算法设计及FPGA实现北京航空航天大学学报(2021年9期)2021-11-02半圆形溜尾提升吊盖吊装应力分析石油化工建设(2020年1期)2020-08-24卷积神经网络的分析与设计电子制作(2019年13期)2020-01-14挑战！神秘手势红领巾·萌芽(2019年9期)2019-10-09从滤波器理解卷积电子制作(2019年11期)2019-07-04V字手势的由来小学科学(学生版)(2018年12期)2018-12-19基于傅里叶域卷积表示的目标跟踪算法北京航空航天大学学报(2018年1期)2018-04-20大跨度悬索桥钢箱梁吊装之跨缆吊机吊装探讨中国公路(2017年19期)2018-01-23“华龙一号”核电机组穹顶吊装成功中国核电(2017年2期)2017-08-11胜利的手势小学阅读指南·低年级版(2017年6期)2017-06-12

推荐访问:吊装自动识别手势