面向建筑物变化检测的主体边缘分解与重组神经网络

叶沅鑫，孙苗苗，周亮，杨超，刘天逸，郝思媛

1. 西南交通大学地球科学与环境工程学院, 四川成都 611756；

2. 高速铁路安全运营空间信息技术国家地方联合工程实验室, 四川成都 611756；

3. 青岛理工大学信息与控制工程学院, 山东青岛 266520

建筑物作为一个城市的重要组成部分，其拆除、新建、扩建等变化与人类生活息息相关，及时准确地获取建筑物的变化信息对于人类发展具有重要意义[1]。随着遥感成像技术的快速发展，可用于变化检测的遥感影像数据越来越多，为利用遥感影像进行建筑物变化检测提供了海量的研究数据。面向建筑物的遥感影像变化检测成为研究热点[2-3]。相关的变化检测方法研究也获得巨大发展，从早期的基于像元的建筑物变化检测发展至结合面向对象分析的方法，从只利用光谱特征的方法发展至结合光谱、形态学指数[4]等多种特征[5-8]的方法。虽然传统的像元级、对象级方法研究取得了丰硕的研究成果，但受限于人为设计特征的表达能力和分割结果的准确性，其在检测的准确性和完整性方面仍存在许多不足之处。

近年来，深度学习技术凭借其特有的深层特征表达能力，为大数据时代下遥感影像处理领域如目标检测[9-10]、影像匹配[11]、变化检测[12]、影像分类[13]等提供了新的解决方案，得到了学者们的广泛关注。其中，将深度学习技术引入传统变化检测流程中的方法[14-15]应用较早，但由于未能充分利用神经网络端到端的结构优势，检测效率较低。因此，许多学者将可进行像元级预测的全卷积神经网络(fully convolutional networks,FCN)[16]引入变化检测中，构建端到端的变化检测模型。虽然端到端的方式提高了检测效率，但FCN中的下采样操作会影响像元空间位置的准确性，难以获得规则的建筑物形状。一系列改进方法被提出，如以U-Net为代表的编码-解码结构[17-18]可通过上采样和反卷积尽可能地恢复影像的空间位置信息，提高检测结果的准确性；
以注意力模型为代表的结合时空关系的方法[19-21]可通过位置注意力、通道注意力增强网络对变化和未变化像元的可分离度，优化建筑物边界的检测效果。

上述基于深度学习的变化检测方法虽然在探测建筑物变化方面获得了较好的检测结果，但由于它是通过建模影像的全局信息来提高物体内部的一致性，或是通过多尺度特征融合优化地物边缘检测效果，忽视了地物主体与边缘间的差异(主体内像元间相似性强，边缘像元属性间存在较大差异)，检测结果中易产生锯齿形边界，出现多个相邻建筑物被视为单个建筑物的情况。为此，本文借鉴解耦思想[22]在语义分割领域的成功应用，把地物分解成主体和边缘的解耦思想引入变化检测中，并在此基础上增加特征优化结构，提出了一种基于主体、边缘分解与重组网络的建筑物变化检测方法(building change detection method based on main body,edge decomposition and reorganization network，BEDRNet)。该方法通过特征分离，分解出主体特征和边缘特征，然后采用多重监督将计算出的标签与预测间的损失都传送给网络，并利用特征优化结构实现主体特征和边缘特征的精准优化，削弱原始影像中的不相关信息，最后通过特征重组和上采样形成完整的变化检测流程。

BEDRNet模型主要包括特征提取、特征分解、特征优化、特征重组与损失函数5个模块，并采用多重监督的策略训练网络。其中，①特征提取：提取双时相影像的多尺度差值特征；
②特征分解：通过构建可学习的流域，分离出主体特征和边缘特征；
③特征优化：设计特征优化结构，利用主体标签和边缘标签对主体特征和边缘特征进行精准优化；
④特征重组：对优化后的主体特征和边缘特征进行重组并生成最终的变化检测结果以形成完整的变化检测流程；
⑤监督策略与损失函数：采用多重监督的策略，损失函数由主体损失、边缘损失和预测结果损失3部分组成。模型整体设计如图1所示。

图1 本文方法总体流程Fig.1 Flowchart of the proposed method

1.1 特征提取

变化检测中的两期遥感影像间存在一定的光谱和时相差异，特征提取对于网络检测效果具有重要的影响。FCN作为一种逐像元确定预测结果的经典模型，在变化检测中取得了广泛应用，但其中的下采样操作会导致预测图中地物边界检测效果较差，出现检测性能降低的情况，尤其对于小目标的检测。ResNet[23]作为提取影像深层特征的基本模块，已经在目标识别、图像分割等任务中表现出良好的性能。此外，孪生网络结构作为一种能够高效提取两分支输入特征的网络结构，对于变化检测而言具有天然的优势，在变化检测中得到了广泛应用[24]。为此，本文在特征提取部分参考FCN网络架构，基于孪生ResNet提取影像特征。本文将对孪生ResNet架构及特征提取实施细节进行介绍。

1.1.1 孪生ResNet

孪生网络是由两个分支网络构成的一种耦合架构，如图2所示，相比于传统神经网络只能接收一个样本输入，孪生网络可以同时接收两个输入，最后经过决策层获得输出。在孪生网络中，分支网络结构相同且权值共享，决策层可以是全连接层，可以是某种相似性度量算法，也可以是某种简单运算，如相减、卷积等。孪生ResNet包含两个结构相同且权值共享的ResNet分支网络，可以提取多尺度差值特征作为后续变化检测模块的输入。

图2 孪生网络架构Fig.2 The architecture of Siamese network

ResNet作为一种有效的特征提取手段，凭借残差连接的方式可以很好地解决深层神经网络中存在的“退化”现象。其基本思想为：在提取影像特征时，不直接学习目标y与输入x之间的关系，而是通过残差的形式对目标进行学习。其基本单元如式(1)所示

y=F(x,{wi,b})+x

(1)

式中，F(x,{wi,b})为残差函数；
wi为权重；
b为偏置项。

不同深度的ResNet结构，残差基本单元的构成形式存在微小差异。图3展示了残差基本单元常用的两种构成形式。左侧为由两个卷积层组成残差基本单元，即ResNet18和ResNet34的基本模块，右侧为含有3个卷积层的残差单元，ResNet50、ResNet101及ResNet152的基本结构。3个卷积层中第1个卷积层和第3个卷积层的卷积核大小设定为1，可以实现特征通道数的转换，减少网络中的卷积核参数个数。考虑到训练效率及特征提取能力，本文参考ResNet50构建特征提取模块。

图3 残差基本单元Fig.3 The residual basic unit

1.1.2 特征提取

1.2 特征分解

在遥感影像中，地物主体对应影像的低频信息部分，像元间的相似性较强，边缘对应影像的高频部分，像元间的差异性较强。相对于存在较大差异的边缘部分而言，具有更强内部一致性的主体像元特征更容易提取，且对于具有不同分辨率的多尺度特征而言，低分辨率特征图可以更好地反映影像的整体信息，更易提取对象的主体特征。在特征提取的5个阶段中，如图4所示，DF1、DF2细节信息丰富，DF5更好地反映了影像整体信息，故本文将双时相影像多尺度差值特征中最深层次的特征DF5作为特征分解部分的输入，通过可学习的流域将对象内部的像元特征流向对象的中心，以提取主体特征。然后通过特征图减去主体特征获得影像的边缘特征。

图4 特征提取各阶段结果Fig.4 The results of each stage in feature extraction module

网络结构如图5所示，F为用于分解出主体和边缘的特征，FLow为编码特征图，DF为解码后的特征图，Flow为流域，Fbody为分离出的主体特征，Fedge为分离出的边缘特征。其中流域通过学习F→Fbody的映射关系获得主体特征，其学习任务与光流相似，都是旨在学习输入与目标之间的运动信息。由于卷积神经网络在给定足够训练数据的情况下，非常善于学习输入与输出的关系。因此，本文参考神经光流网络[25]的结构构建特征分解部分，即整体采用编码解码的结构设计，通过对特征进行下采样获得频率更低的编码特征图FLow，再通过上采样和跨步卷积生成低频图DF，最后通过输入特征F和卷积获得流域Flow，其中，F、FLow、DF、Flow的特征图大小分别为256×32×32、256×16×16、256×32×32、256×32×32。

图5 特征分解Fig.5 Feature decomposition module

获得流域Flow后，通过Flow对物体内像元特征的流向进行引导，采用xl+Flowl(xl)将标准空间格网Ωl中每个位置的点xl映射为新点x′。接着如式(2)所示，采用空间变换网络中所提出的双线性差分采样机制[26]来近似估计Fbody中的每个点xl，通过双线性内插获得主体特征图Fbody中xl邻域范围内4个像元的像元值

(2)

式中，ϖl表示在分离空间格网上的双线性核的权重，主要由Flow计算得到；
N表示邻域范围内的像元。

边缘特征Fedge为影像的高频信息部分，主体特征为影像中的低频信息，故可以从整幅影像中“减去”表示低频信息的主体特征来获得。如式(3)所示，从深度特征F中减去主体特征Fbody生成Fedge

Fedge=F-Fbody

(3)

1.3 特征优化

特征分解出的主体特征和边缘特征的特征层次较深，可更好地反映整体信息但缺少细节特征，其边界信息的可靠性不强。且上采样操作虽能增加特征图的尺寸，却无法提升其信息量。直接对其进行监督，计算相应的损失对网络参数进行更新，生成的预测边界的准确性不高。为提高地物边界的准确度，本文设计特征优化结构，通过结合多尺度浅层特征的方式，在逐渐增加特征图尺寸的同时添加细节信息。由于地物的边缘和主体分别属于高低频信息，本文采用图6所示的特征优化结构对边缘特征和主体特征分别进行优化。

图6 特征优化Fig.6 Feature optimization module

1.4 特征重组

1.5 监督策略与损失函数

现有的变化检测方法只对最终的预测结果进行监督训练，忽视了地物主体和边缘之间存在相互作用。为实现主体特征和边界特征的精准优化，本文采用多重监督的策略，分别利用主体特征标签、边缘特征标签及变化检测结果标签对优化后的主体特征、边缘特征和最终的预测结果进行监督。其中，边缘特征标签由变化检测结果标签的最外层像元构成(遍历结果标签图每一个像素，判断其4邻域所属类别，如有不同则识别为边缘，否则识别为非边缘)，主体标签由变化检测结果标签减去边缘标签生成。损失函数如式(4)所示

(4)

通过多重的监督训练，特征优化结构对主体特征和边缘特征的优化效果如图7所示，其中，第1行为主体特征的优化效果，第2行为边缘特征的优化效果。由图7(a)可以看出，通过特征分解形成的主体特征和边缘特征，其轮廓比较模糊，难以给出完整的地物变化信息；
由图7(b)可以看出，优化一次的主体特征可以明显地看出变化地物的轮廓，但缺乏详细的细节信息，优化一次的边缘特征可以发现某些地物轮廓信息，但多数变化地物的边界线存在不连续现象，难以获取准确的变化地物轮廓。对比图7(c)和图7(d)可以发现，经过两次优化的主体特征和边缘特征能够获得准确的地物变化信息，即BEDRNet模型可通过多重监督训练，对地物的主体和边缘进行精准优化。

图7 网络预测效果Fig.7 Network forecasting effect

2.1 试验数据

本文采用文献[19]在2020年公开的航空影像建筑物变化检测数据集LEVIR-CD。该数据集由639张1024×1024像素的谷歌地球影像组成，空间分辨率为0.5 m，双时相影像间的跨度为5～14 a，其中的建筑物包括别墅、高层公寓、小型车库和大型仓库等，种类丰富。整个数据集中共含有31 333个独立的变化建筑物，平均每个影像对中含有50个变化的建筑物，变化信息十分丰富。本文在试验时，沿用LEVIR-CD的数据划分方式，将数据集分为训练集、验证集和测试集3组，每组数据集分别包括445组、64组、128组影像对。数据扩增方式采用无重叠裁剪、随机翻转、-15°～15°内随机旋转，影像裁剪的尺寸为256×256。扩增后的训练集、验证集和测试集的样本量分别为10 680、1536和2048张。

2.2 试验设计

为突出基于BEDRNet的变化检测的优越性，探索网络结构设计的合理性，本文设计了两组试验对比方案。第1组方案为不同方法间的对比，本文将BEDRNet模型与4种变化检测模型进行比较。其中，方法Ⅰ为FC-EF[27]，方法Ⅱ为EF-Siam-conc[27]，方法Ⅲ为全卷积孪生网络结合基本时空注意力模型的STA-BAM[19]，方法Ⅳ为全卷积孪生网络结合金字塔时空注意力模型的STA-PAM[19]。方法Ⅴ为基于BEDRNet的本文方法。第2组为消融试验，在BEDRNet模型中，本文所设计的优化结构(见1.3节)对于主体和边缘的精准优化非常重要，为对其有效性及合理性进行分析，本文设计了相应的消融试验对特征优化结构的性能进行测试。试验方法涉及BEDRNet-base和BEDRNet，其中BEDRNet-base为不含特征优化结构的BEDRNet模型。

所有试验基于Ubuntu 18.04系统，CPU型号为Intel(R) Core(TM) i7-10700KF，GPU为NVIDIA GeForce RTX 3080显卡，显存大小为10 GB。采用Pytorch 1.8.0深度学习框架。各试验方法参数设置见表1。

表1 各试验方法参数设置Tab.1 The parameters setting of each method

2.3 试验结果与分析

2.3.1 不同方法检测结果对比

为对5种基于深度学习的变化检测方法进行合理的评价，本文从定性和定量两方面对变化检测结果进行分析。在定量分析方面，采用总分类精度、召回率、精确度、F1score及均值交并比(Mean IoU)5种评价指标对检测结果的精度进行评价，并对比了5种方法的训练与测试效率。定性方面，对测试集中一般密集度及较高密集度的建筑物检测效果，及检测结果边界准确性进行了详细分析。

在定量分析方面，表2展示了上述5种基于深度学习的变化检测方法在LEVIR-CD数据集上的检测精度。

表2 LEVIR-CD数据集5种方法检测精度Tab.2 The detection accuracy of the five methods on LEVIR-CD data set (%)

对表2中的数据进行分析，可以发现：①BEDRNet的检测性能最佳，在5种评价指标上均达到了最高精度。特别地，其在精确度、F1score及Mean_IoU方面分别比结合金字塔时空注意力模型的STA-PAM方法高出约9.3%、5.1%、4.4%。②在对全局信息进行建模的变化检测方法中，相较于基于U-Net的FC-EF法和EF-Siam-conc法，结合时空注意力的STA-BAM法和STA-PAM法能够获得较好的检测性能，但其检测精度仍低于BEDRNet的检测结果。

表3展示了5种变化检测方法平均每轮训练用时及平均测试每对影像所用时长。由于模型复杂度和数据处理策略的不同，各方法模型训练用时差异较大，其中FC-EF法与STA-BAM法的训练用时最短，EF-Siam-conc法次之，本文方法与STA-PAM训练用时相对较长。5种方法均达到了较高的变化检测效率，得到每对双时相影像变化检测结果的平均用时均小于0.05 s。其中，FC-EF法与STA-BAM法测试效率最高，本文方法与EF-Siam-conc次之，STA-PAM检测效率相对较低。综合考虑变化检测精度与检测效率可知，本文方法具有较好的变化检测性能。

表3 5种方法训练与测试用时Tab.3 The training and testing time of the five methods

在定性分析方面，为直观地展示上述5种变化检测方法的检测效果，本文分别以彩色叠加图和黑白二值变化图为例，对不同建筑物密集程度的检测结果进行了展示，在两种类型的图中，从左到右依次是变化检测结果标签、FC-EF法检测结果、EF-Siam-conc法检测结果、STA-BAM法检测结果、STA-PAM法检测结果、BEDRNet法检测结果。其中，图8展示了在建筑物一般密集程度研究区域的检测结果，绿色部分表示能够正确识别的变化区域，红色部分表示错误识别区域。由第1行及第2行的检测结果可以看出，BEDRNet能较好地保持地物轮廓的完整性，对大型建筑物进行准确识别。由第3行、第4行及第5行的结果可以发现，BEDRNet可以对小型建筑物实现精准识别，对地物边界的描述也更加详细准确。

图8 5种方法在建筑物一般密集度区域的检测结果Fig.8 The detection results of the five methods in the general density building area

图9显示了5种方法在建筑物间密集程度较高区域的检测效果，图10对比了5种方法变化区域边界检测的准确性。可以明显看出，没有结合注意力机制的FC-EF法及EF-Siam-conc法检测效果较差，很难识别出建筑物之间的间隙，且检测结果边界破碎，准确性不高。相比之下，结合时空注意力的STA-BAM法和STA-PAM法检测性能有所提升，但对建筑物间隙的识别能力仍然较弱，建筑物之间存在部分连接现象，且容易产生“锯齿形边界”现象(见图10矩形框)。而BEDRNet在建筑物密集度较高的区域具有更好的识别能力，且能够较好地保持地物轮廓的准确性，具有很强的抗锯齿性能。以上试验结果表明，虽然时空注意力在提高变化检测性能方法具有一定的优越性，但在密集度较高的建筑物区域的检测效果仍有待提升，而BEDRNet通过分别对地物主体、边缘进行建模，可以准确地识别大型和小型建筑物，且在保持地物边界的准确性方面也具有更好的性能。

图9 5种方法在密集度较高区域的检测结果Fig.9 The detection results of the five methods in the high-density area

图10 5种方法边界检测效果Fig.10 The boundary detection effect of the five methods

2.3.2 消融试验

为了精确地优化建筑物的主体和边缘特征，本文在BEDRNet模型中设计了特征优化结构。为了对其设计的合理性和有效性进行验证，这里开展了有关特征优化结构的消融试验。试验方法包括无特征优化结构的BEDRNet-base法及含有特征优化结构的BEDRNet。其定量检测精度见表4。

表4 消融试验检测精度Tab.4 The detection accuracy of ablation experiments (%)

由表4可以看出，BEDRNet的精确度、F1score和Mean_IoU分别比BEDRNet-base高出约2.6%、2.0%和1.7%，即含有特征优化结构的方法可以获得较高的检测精度。

检测结果如图11所示，其中第1列为变化检测结果标签，第2列为BEDRNet-base检测结果图，第3列为BEDRNet法检测结果。由图11可知，含有特征优化结构的BEDRNet法能够在大型建筑物区域获得完整的建筑物轮廓(如图中第1行检测结果中的矩形框所示)，能够较好地识别小型建筑物(如图中第2行和第3行检测结果中的矩形框及椭圆框所示)，且无论是对于大型建筑物还是小型建筑物，BEDRNet检测结果中的锯齿现象都较弱。

图11 消融试验结果Fig.11 The results of ablation experiment

综上所述，BEDRNet模型中的特征优化结构设置合理，性能高效，能够通过分别建模大型和小型建筑物的主体和边缘实现地物轮廓的准确识别。

为优化建筑物密集区域的边界检测效果，本文将特征解耦的思想应用到变化检测中，提出了一种基于主体、边缘分解与重组网络的建筑物变化检测方法(BEDRNet模型)。该方法的网络结构包括特征提取、特征分解、特征优化、特征重组及预测损失5个部分。其中特征提取主要用于提取影像的深层特征，特征分解用于分解出主体特征和边缘特征，特征优化通过结合多尺度浅层特征对主体特征、边缘特征进行精准优化，特征重组部分用于对优化后的特征进行重组和上采样，生成变化检测二值图。试验结果表明，相较于基于U-Net网络的方法、结合时空注意力的方法，BEDRNet模型能够在建筑物区域获得较优的检测结果。由于训练样本的多样性对模型的性能十分重要，目前现有的数据集多为同源遥感影像，未来的研究方向之一就是制作异源遥感影像变化检测数据集，以测试和进一步改进BEDRNet模型。

猜你喜欢变化检测边缘建筑物用于遥感图像变化检测的全尺度特征聚合网络北京航空航天大学学报(2022年8期)2022-08-31基于多尺度纹理特征的SAR影像变化检测河北地质(2021年1期)2021-07-21邻近既有建筑物全套管回转钻机拔桩技术铁道建筑技术(2021年4期)2021-07-21现代中小河流常用有坝壅水建筑物型式探讨黑龙江水利科技(2020年8期)2021-01-21描写建筑物的词语小学生学习指导(低年级)(2019年9期)2019-09-25基于稀疏表示的视网膜图像对变化检测中国生物医学工程学报(2019年5期)2019-07-16基于Landsat影像的黄丰桥林场森林变化检测研究中南林业科技大学学报(2017年12期)2017-12-19一张图看懂边缘计算通信产业报(2016年44期)2017-03-13火柴游戏小天使·二年级语数英综合(2015年12期)2015-12-04在边缘寻找自我雕塑(1999年2期)1999-06-28

推荐访问:神经网络建筑物分解