基于Mask,R-CNN,遥感图像建筑物自动提取

陈红顺,郑荣升

(北京师范大学珠海分校信息技术学院,广东珠海 519087)

自2006年Hinton提出深度学习以来,深度学习已经在计算机视觉等领域取得了巨大成功[1]。2015 年,Jonathan 等提出全卷积神经网络(Fully Convolutional Network,FCN),并将其用于图像语义分割[2],随后各种深度学习语义分割网络如UNet、SegNet、DeepLab系列相继被提出,并在图像语义分割任务获得了不错的效果[3-6]。

建筑物是一种具有显著特征和代表意义的复杂人工地物,建筑物的快速、准确提取对城市规划、灾害评估等应用具有重要意义。目前,已有基于深度学习的建筑物提取研究大多将建筑物提取看作是遥感图像的语义分割[7-8]。实际上,建筑物提取是一个典型的实例分割问题,在关注某个像素是不是建筑物的同时,还应该关注建筑物的空间位置和建筑物的数量[9]。Mask R-CNN 作为一个实例分割模型,已应用到许多领域,并具有较高的分割精度[10-11]。目前,国内外部分学者将Mask R-CNN 用于遥感建筑物提取,取得了一定成果[12-13]。

1.1 Mask R-CNN原理

实例分割可以看成是目标检测和语义分割相结合,不仅需要正确找到图像中的目标,还需要对每个目标的像素进行精确分割。Mask R-CNN 是一个用于实例分割的通用架构,是对目标检测网络Faster R-CNN[14]的扩展。Mask R-CNN 由两部分构成,一部分是负责目标检测的Faster R-CNN;
另一部分是预测目标掩膜(Mask)的FCN。此外,Mask R-CNN 使用ROIAlign 替代Faster R-CNN 中的RoiPooling,提高了目标检测的精度,同时也有利于实例分割。Mask R-CNN 定义了一个多任务损失,如式(1)所示:

其中,Lcls和Lbox分别为分类误差和检测误差;
Lmask是语义分割分支的损失。输入Mask 分支的每个特征图经过一系列卷积和转置卷积操作后,输出k×m×m大小的特征图,k表示输出的维度即总类别数,每一个维度对应一个类别可以有效规避类间竞争,m×m表示特征图的大小。Lmask为平均二值交叉熵函数,其对每一个像素进行分类,对每一个维度利用sigmoid 函数进行二分类,从而判断其所属类别。

1.2 Mask R-CNN网络结构

Mask R-CNN 有两种网络结构:Faster R-CNN/ResNet 和Faster R-CNN/FPN,如图1 所示。前者是在Faster R-CNN 基础上添加分支用于实例分割任务,并且与分类和box回归任务共享大部分特征,最后上采样到14×14 大小的特征图,再使用1×1 卷积得到80(目标类别数)个Mask;
后者是在Faster R-CNN/FPN 的基础上添加分支用于实例分割任务,特征直接来自Roi Align,得到14×14的Pooling特征,经过四个3×3 大小卷积核的卷积以及一个反卷积,最后得到28×28 大小的特征图,同样使用1×1 卷积得到80(目标类别数)个Mask。

图1 Mask R-CNN网络结构

文中基于TensorFlow与Keras实现了Mask R-CNN,采用Faster R-CNN/ResNet 结构(见图2),其中主干网络分别选择ResNet50、ResNet101和ResNe Xt101[15]提取原始遥感图像的特征,采用RPN(Region Proposal Network)网络区域候选生成框,使用ROI Align 方法进行区域特征聚集,语义分割与分类、回归部分并行地采用不同的网络。

图2 文中网络结构

2.1 数据集

SpaceNet 是用于建筑物和道路提取的卫星遥感数据集,文中选取Las Vegas 区域用于训练和测试。该区域的遥感影像由Wordview-3 卫星拍摄,分辨率为0.3 m,数据集已将原始遥感影像裁剪为200 m×200 m 固定大小的影像,并以Geojson文件标记出影像中对应的建筑物多边形,影像覆盖范围共计216 km2,包含151 367 个建筑物多边形。该遥感影像为包含八个波段的多光谱影像,像元深度为16 位。首先从多光谱影像中提取RGB 波段,然后做归一化处理,最终合成彩色图像;
从Geojson 文件提取出建筑物的坐标,并生成相应的建筑物掩膜图像,如图3 所示。训练集和测试集的划分采用数据集的默认划分,每次训练从训练集中随机选取10%作为验证集。

图3 SpaceNet数据集示例数据

2.2 模型训练

模型的训练和测试在装有两个GPU(型号为NVDIA GeForce RTX 2080Ti 11 GB)的计算机上进行。SpaceNet 数据量较少,直接在SpaceNet 数据集训练模型难以收敛。COCO 是一个大型图像数据集,可用于目标检测、语义分割、实例分割等常见的计算机视觉任务[16]。由于COCO 数据集里包含了大量不同类型的图像,因此非常适合用于模型的预训练。文中先将Mask R-CNN 模型在COCO 数据集进行预训练,然后在SpaceNet 数据集上直接加载在COCO 数据集进行预训练得到的模型权重,继续进行训练。训练过程中,模型(主干网络为ResNet101)的总损失和Mask 部分损失的变化如图4 所示。从图4 可以看出,当模型训练到160 个epoch 时,总损失与Mask 部分损失均达到较低水平,模型停止训练。

图4 训练过程中的loss变化曲线

2.3 精度评价

为了评价建筑物提取的效果,采用常用的评价指标AP(Average Precision)对检测精度和Mask 精度进行评价。

设P、R分别代表精准率(Precision)与召回率(Recall),计算公式分别如下:

式中,TP 表示正确预测的类别;
FP 表示错误预测的类别;
FN 表示未被预测的类别。以R为横轴、P值为纵轴,可以得到PR曲线。AP 表示平均精准度,就是对PR曲线上的P值求均值。

在实际建筑物提取中,随机选取10 张建筑物提取结果图像用于精度评价。先计算建筑物预测边界矩形与真实建筑物边界矩形的并交比(IoU),如果IoU≥0.5,则认为该建筑物被正确检测,属于TP 类别;
若检测为建筑物但实际为非建筑物,则属于FP类别;
没有被检测出的建筑物属于FN 类别。最后统计各类别(TP、FP 和FN)数量用于计算相应AP,从而对检测精度进行评价。对于检测到的建筑物,根据建筑物Mask 分支得到的分割结果和相应的建筑物掩膜,评价建筑物分割精度。在建筑物分割精度评价中,TP 表示正确预测的建筑物像元,FP 表示错误预测的建筑物像元,FN 表示未被预测的建筑物像元,然后统计各类别(TP、FP 和FN)像元数量,计算相应AP 用于评价Mask 精度。

2.4 实验结果

为比较不同主干网络对训练精度的影响,对采用不同主干网络的Mask R-CNN 分别进行160 个epoch 训练后,在测试集上进行建筑物提取,按照2.3节进行精度评价,其结果如表1 所示。图5 是利用训练后的Mask R-CNN 模型(主干网络为ResNet101)在测试集进行建筑物自动提取的结果。从图5 可以看出,Mask R-CNN 建筑物提取的效果整体比较理想,主干网络采用ResNet50 的模型,其建筑物检测精度和Mask 精度均较高,分别达到了88.44%、85.23%;
主干网络采用ResNet101 和ResNeXt101[15]的模型建筑物提取精度非常接近,均明显优于主干网络采用ResNet50 的模型,检测精度和Mask 精度分别达到了96%、94%以上。

表1 Mask R-CNN不同主干网络的精度比较

图5 Mask R-CNN建筑物提取结果

仔细观察图5 可以发现,Mask R-CNN 在建筑物检测方面还存在一些问题,主要表现在:①目标较小的建筑物存在部分像素丢失的情况;
②建筑物较为密集的区域存在建筑物数量提取不准确的问题,这些问题将在后续研究中进行改进。

为满足建筑物自动提取的需要,基于TensorFlow与Keras 实现了Mask R-CNN 网络,在COCO 数据集经预训练后,在SpaceNet 数据集上进行了建筑物提取实验。结果表明,基于Mask R-CNN 的建筑物提取精度较高,主干网络采用ResNet101 和ResNeXt101模型的检测精度、Mask 精度分别达到96%、94%以上,明显优于主干网络采用ResNet50 的模型,但也存在小目标建筑物部分像素丢失、建筑物密集区域建筑物数量提取不准确等问题,后续需要进一步深入研究。

猜你喜欢 主干类别建筑物 抓主干,简化简单句广东教育·高中(2022年1期)2022-03-16邻近既有建筑物全套管回转钻机拔桩技术铁道建筑技术(2021年4期)2021-07-21现代中小河流常用有坝壅水建筑物型式探讨黑龙江水利科技(2020年8期)2021-01-21描写建筑物的词语小学生学习指导(低年级)(2019年9期)2019-09-25壮字喃字同形字的三种类别及简要分析民族古籍研究(2018年1期)2018-05-21左主干闭塞的心电图表现中华心脏与心律电子杂志(2017年2期)2017-10-20西夏刻本中小装饰的类别及流变西夏学(2016年2期)2016-10-26血管内超声在冠心病左主干病变介入诊疗中的指导价值研究中国心血管杂志(2016年4期)2016-09-15火柴游戏小天使·二年级语数英综合(2015年12期)2015-12-04全国主干公路网交通安全监控信息共享平台构建研究中国交通信息化(2015年2期)2015-06-05

推荐访问:遥感 建筑物 提取