无线通信和移动计算

PDF
无线通信和移动计算/2020/文章
特殊的问题

5G及以后的移动边缘计算:新兴趋势和应用

查看此特殊问题

研究文章|开放获取

体积 2020 |文章ID. 8871082 | https://doi.org/10.1155/2020/8871082

建胜鹏,奎福,清金伟,永勤,齐文何 改进了单图像高分辨率3D对象重建的多视图分解“,无线通信和移动计算 卷。2020 文章ID.8871082 14 页面 2020 https://doi.org/10.1155/2020/8871082

改进了单图像高分辨率3D对象重建的多视图分解

学术编辑器:Shaohua广域网
收到了 03年9月20日
修改 2020年12月03日
公认 2020年12月13日
发表 2020年12月28日

摘要

作为人工智能的代表技术,基于深度学习的三维重建可以整合到边缘计算框架中,形成智能边缘,进而实现对边缘的智能处理。近年来,采用多视图分解(MVD)结构的高分辨率三维物体表示是一种快速的重建方法,可以从单一的RGB图像生成具有真实细节的物体。高分辨率三维物体重建的结果与两个方面有关。一方面,低分辨率的重建网络能从单一的RGB图像中反映出良好的三维物体;另一方面,高分辨率重建网络将精细的低分辨率3D物体最大化。为了改进这两个方面,进一步增强三维目标生成网络的高分辨率重建能力,我们研究并改进了低分辨率的三维生成网络和深度图超分辨率网络。最后,我们得到了一个改进的多视图分解网络。首先,我们使用了一个具有多特征融合(MFF)的二维图像编码器来增强模型的特征提取能力。其次,采用有效的亚像素卷积神经网络(3D ESPCN)的3D译码器在译码阶段提高了译码速度。此外,我们设计了多残留密度块(MRDB)来优化深度图超分辨率网络,使模型能够捕获更多的目标细节,当网络层数增加一倍时,模型参数减少约25%。 The experimental results show that the proposed IMVD is better than the original MVD in the 3D object superresolution experiment and the high-resolution 3D reconstruction experiment of a single image.

1.介绍

单个图像的三维重建是一个热点和计算机视野领域的难点。单个图像的三维重建的目的是从单个RGB图像或单个深度图像重建相应的3D模型结构。对象的早期3D重建使用多视图几何(MVG)方法,主要研究了结构 - 来自运动(SFM)[12]恢复及同步定位及绘图(SLAM) [3.].此外,3D对象重建还具有基于先验知识的方法[4.5.].这些传统的方法在对单个图像进行三维重建时,往往局限于某一类物体,或者难以产生较高精度的三维物体。随着深度学习技术的不断发展,近年来该技术得到了广泛的应用[6.-14],例如视频分析[8.]、图像处理[9.-11]、医疗诊断及服务[1213],以及目标识别[14].在实际应用中会遇到能耗大、响应时间长等问题。利用边缘计算可以有效地解决这些问题。在大数据时代,边缘产生的数据(如图像)也需要人工智能技术来释放其潜力。一些结合边缘计算和深度学习的研究尝试包括智能视频监控[15,食物识别系统,[16]和自驾车[17].目前,边缘计算和深度学习的研究大多集中在二维空间的目标识别上。然而,对于无人驾驶、虚拟现实等应用,3D重建是其核心技术。在物体的三维重建中,很多方法都试图将二维空间的卷积运算扩展到三维空间来生成三维形状[18-20.]并取得了良好的研究结果。这些方法都使用基于致密的体素的卷积操作。随着运行时间和内存消耗的随着体素分辨率的改进统一,所生成的模型的分辨率仅限于 为了解决该方法生成的模型分辨率低的问题,有研究提出了一种八叉树稀疏三维重建方法[21-23].最近,生成的对抗性网络(GaN)在图像生成中显示出巨大的潜力,而且Yu等人。[24也将其扩展到单个图像的三维重建。对于使用GAN进行单幅图像的三维重建,该方法计算资源巨大,训练时间长。目前,边缘计算的应用[2526对这个问题可能是一个可行的解决方案。将边沿计算到传统的3D重建可以更快地生成3D形状,但图像的选择和处理可能是一个问题[27].因此,组合边缘计算和深度学习以实现单个图像的实时3D重建可以是解决方案。除了直接使用体素来生成3D形状外,其他研究已经使用了不同的三维表示,例如点云[28-30.],网格[31.-33.),原语(34.35.,隐曲面[36.37.].这些方法大都能以高分辨率重建三维物体,且不受记忆要求的限制。然而,这些方法大多需要解决模型本身固有的缺陷,如使用点云方法重建物体的表面细节,解决网格法重建物体的属问题。

基于体素的三维物体重建方法具有良好的鲁棒性。该方法具有适应3D CNN和生成任意拓扑结构的能力。然而,这种方法需要大量的内存和计算,这些因素导致生成的三维形状的分辨率过低。因此,如何解决基于体素的三维重建的缺点是该方法生成高分辨率三维形状的前提。目前,利用体素生成高分辨率三维物体的方法有几种。如上所述,其中一种方法是使用八叉树的稀疏三维表示来生成高分辨率的三维形状。它也是一种将高分辨率三维形状重建转移到二维空间进行实现的方法。具体来说,该方法首先利用传统的2D编码器-3D解码器体系结构,从输入图像生成低分辨率的3D对象。然后,对低分辨率三维物体的二维深度图像进行超分辨率重建。最后,将生成的超分辨率深度图像用于单个高分辨率三维物体的重建。 In order to avoid directly manipulating voxels in a three-dimensional space, Richter and Roth [38.]首先预测3D形状的6个深度图。然后它们融合成单个重建的3D形状。史密斯等人。[39.]也采用了类似的想法,在拟议的MVD。他们首先使用编码器-解码器网络来重建单个图像的低分辨率3D体积。然后,得到六幅低分辨率三维物体的正射影深度图,进行超分辨率重建。最后,将生成的超分辨率图像用于切割上采样的低分辨率三维形状,生成高分辨率三维物体。该方法可以快速完成单幅图像的高分辨率三维物体重建。

然而,MVD方法使用传统的编码器-解码器网络来生成低分辨率的三维形状。该方法在二维编码阶段提取图像特征的能力有限,在三维解码阶段解码速度较慢。此外,MVD在深度图像超分辨率重建中使用的残余块(RB)没有充分利用不同层的特征。本文对这些方面进行了研究和改进,以提高模型的整体三维重建能力。首先,我们将低分辨率3D生成网络中的2D编码器改进为具有多特征融合的2D编码器,以增强模型的图像特征提取能力;然后,我们扩展了2D ESPCN [40]到3D ESPCN,以提高解码器生成3D形状的速度。其次,本文首先在残差网络和稠密网络的基础上引入了单一残差密集网络(SRDN)进行改进。然后以密集连接的方式改进残差网络,最大限度地重用特征。然后,我们得到一个多残差密集网络(MRDN)来增强深度图超分辨率网络,使网络结构更加深入,最大化了不同卷积层之间的信息传递。实验结果表明,改进后的多视图分解(IMVD)结构具有更好的性能。首先,采用三维ESPCN的译码器可以在不降低模型性能的前提下提高模型的译码速度。其次,当MRDB网络层数是RB网络层数的两倍时,模型的总参数和大小分别减少了约25%。然后,当重构对象处于相对较薄的部分时,往往会破坏MVD方法的重构结果。但我们的IMVD方法可以在一定程度上避免这种情况。此外,结合MFF和MRDB的网络可以捕获更多的局部特征。 The following sections are organized as follows. In相关工作,介绍了目前的相关工作。在方法,分别引入改进的MRDB和低分辨率3D对象重建网络。在实验,介绍了实验,包括建立数据集,培训细节以及每个改进组分的相关实验结果。在结论,本文总结了。

本文的主要贡献总结如下:(一世)我们提出了一种具有多因素融合的图像编码器,其提取每个层的特征信息,以增强3D形状的局部细节的表示。与传统图像编码器相比,具有MFF的编码器在捕获3D对象的详细部分时相对更有利(2)我们提出了一种基于体素表示的3D解码器操作,以改进传统的3D解码器,减少了模型生成3D形状的时间。在三维解码阶段的最后一步,使用三维ESPCN可以在较低分辨率的三维体积空间中生成三维形状。这减少了模型生成3D形状所需的时间(iii)我们提出了一种多频密度的网络,可以充分利用从剩余网络和密集网络中提取的功能。我们以密集的方式连接剩余网络,并将提取的特征发送到密集连接的网络中。通过最大化每层的功能来改善模型表达能力

我们工作的目标是通过改进原始MVD网络来提高其从单个RGB图像生成高分辨率3D对象的能力。Wu等人。[18]提出利用神经网络从2.5D深度图中恢复物体的3D形状。Girdhar等人[19]提出了一个嵌入网络。网络可以在训练后完成从RGB图像的重建到3D形状。这些研究都适用于传统的编码器 - 解码器架构,它使用逐行的2D卷积和3D去卷积进行处理。史密斯等人。[39.还使用类似的结构来从2D图像生成3D形状。众所周知,在2D图像处理中,太深的网络层会导致梯度色散的问题。当一个太深的网络可以收敛时,其精度也会降低。然而,网络也被证明是为了提高其性能。因此,在单个图像的3D重构中引入残差学习是一种本能的想法。灵感来自残余网络[41., Choy等人[20.]引入了残差结构,设计了更深层次的三维物体生成网络。实验结果表明,该网络在训练阶段的损耗值较低,能够比传统的三维物体生成网络生成更好的三维形状。类似地,Wu等人[42.]在2D编码器中应用了类似的残余结构。此外,Soltani等人。[43.]将残余块合并到网络中以提高模型的性能。

在图像超分辨率中,Dong等[44.首先使用的卷积神经网络实现了低分辨率图像的超级化重构。在采样低分辨率图像之后,该方法的输入是高分辨率图像。这种超级化方法在操作中复杂并且具有大量的计算。随后,Shi等人。[40] ESPCN求婚。不同于将输入图像上采样到目标分辨率图像进行处理,它们首先使用神经网络从低分辨率图像中提取特征。然后,利用ESPCN运算对提取的特征进行重新计算,获得高分辨率图像。由于特征提取阶段在较低的分辨率空间进行,该方法降低了整个超分辨率过程的计算复杂度。受此启发,我们首先使用传统的3D反褶积操作,从特征向量生成多个低分辨率的3D体积。然后,我们将ESPCN从2D空间扩展到3D空间,从这些3D空间生成更高分辨率的3D体积。

近年来,在图像分类中出现了不同的网络结构,如残差网络(ResNet) [41.]和密集的网络(Densenet)[45.].引入残差网络或密连网络的目的是为了解决设计更深层次的网络结构导致的模型退化问题,网络越深可以提取更多的特征,增强模型的表达能力。为了在多层之间重用特征信息,设计了一个紧密连接的网络来解决梯度消失问题。此外,这种设计的网络结构模型更小,计算量更少。在上述研究的基础上,通过分析残差块和密集块的优缺点,提出了双路径网络(DPN) [46.将两者结合起来以减少模型参数并提高训练速度。最后,在图像分类、目标检测和语义分割实验中取得了较好的结果。实验结果表明,不同的结构对模型的性能、参数大小和计算复杂度有不同的好处。

后来,在图像超级化重建的实验中逐渐引入各种延伸的特征提取结构[47.],例如深度剩余经常性网络(DRRN)[48.]残余块[49.].在2D图像的超级化实验中,通常引入多层特征级联方法以获得更多图像特征信息。张等人。[50.]在研究了残差块和稠密块之后,提出了残差密集网络(RDN)。对每个残差稠密块(RDB)的输出进行局部特征融合和全局特征融合处理。他们进一步探索了如何通过这种多重融合方法充分利用不同卷积层的特征。Wang等[51.]引入残差中稠密块(residual-in-residual density block, RRDB)连接不同的网络层,使模型获得更好的性能。受这些研究的启发,我们研究了多残留稠密块,以充分利用每个卷积层的特征。

3.方法

在本节中,我们将介绍一种改进的多视图分解(IMVD)网络,如图所示1.本文的目标是改进MVD网络以增强模型的表达能力,提高3D对象重建的质量。在以下内容中,我们首先描述改进的多分析密度块(MRDB)网络。其次,描述具有多层特征融合的2D编码器。最后,我们简要介绍了3D ESPCN中的3D子像素卷积层(3D SPCL)。

3.1.Multiresidual密集的网络

MVD的深度映射超级化网络基于SRGAN的发电机中的残余块[49.].我们改进的超级化网络基于残余网络和密集网络的组合。这种改进是增加卷积层之间的连接,以获得更多特征信息并设计更深层和更复杂的结构。

最近的实验表明,在网络结构中连接更多的层可以进一步提高模型的性能。同样,在二维图像中使用更密集的连接也被证明可以提高模型的性能。Chen等[46.]证明了单一残差网络在重用特征时冗余较少,这种共享信息策略使得学习新特征变得困难。然而,单个密集连接的网络在学习多个新特征时,会导致高冗余。最后,他们设计了一个具有剩余网络和密集连接网络优点的DPN。此外,Zhang等人[50.还探索了剩余网络和密集网络的组合。他们的实验结果表明,两者的组合是有益的。同样,我们也考虑到两者。首先,我们引入单个残留的密集块(SRDB)[50.].然后,我们在单个残差密集块的基础上进行改进,将残差学习以密集的方式连接起来,设计了一个新的多残差密集块(MRDB),如图所示2

MVD的基本架构使用16个残余块,如图所示2(a).我们维持了MVD的基本结构。我们应用 如图所示的多频密度块2 (c).多重残差密集网络的基本结构如图所示1.首先,我们考虑一张图像 作为超分辨率网络的输入。网络输入的每一层都包含一个或多个分量:批处理归一化(BN)和卷积(Conv),我们将这些非线性变换表示为 在哪里 索引图层。然后, 在图2是Conv-BN-CONC-BN的形式。然后, 表示由a组成的过渡层 卷积层和批处理归一化。

3.1.1。reset.

与传统CNN相比,在不同卷积层之间插入快捷连接可以将其转换为残差网络,如图所示2(a).当不同卷积层的输入输出维数相同时,可以使用恒等快捷连接将其输出直接添加到后续层的输出中。使用恒等快捷连接方法时,该连接方法既不增加新的参数,也不增加计算复杂度。对于图中的残差网络2(a),输出 Th层用身份函数绕过非线性变换,并将结果添加为 TH层输入。残差网络可以表示如下:

3.1.2。单个剩余密度网络(SRDN)

Reset使用快捷方式连接以在一定程度上解决模型劣化问题。但是,Reset的不同层之间的连接是稀疏连接。为了充分利用不同层的特征,DenSenet使用每个层的输出作为每个后续层的输入。这种密集连接的方法允许模型实现比Reset更好的性能,参数和计算成本更少。在单个残留的浓密块2(b)的输入 第Th层由前一层的输出特征派生而来 层, 在哪里 表示连接操作。方程(2)也称为密集连接的网络输出。最后,SRDB结果包括输入 总结一下 快捷连接输出。我们调用此网络SRDN,其输出可以表示为

3.1.3。多频密度网络(MRDN)

在每个SRDB中,应用DenSenet以提取用于融合的不同层的特征,并引入单个剩余学习以改善信息流。应该指出的是,SRDB中的残差学习与DENSENET密切相关。为了进一步改善信息流,我们将不同层的剩余学习与DENSENET融合。现在我们考虑多思路密集的数字块2 (c).首先,我们表示 作为单个MRDB的剩余输入和密集输入,和 为了 它可以表达为

然后, 表示为残余输出的融合

结合方程(4.) 和 (5.),可以看出,DenseNet在MRDB中的输入包含了RenseNet的输出。

此外,我们表示 是剩余网络的输出和密集连接的网络 分别th层。的 th层接受上一输入的所有输入功能映射 第Th层为剩余输出

同样,我们可以获得输出 th层:

因此,变换方程(7.)进入等式(6.),及公式(6.)可以进一步写作

比较方程(8.)方程式(2式()右侧第一项8.)形式上等于式(2).然而, 在等式(8.)本质上为式(1).此外,公式(8.)为所有特征图添加一个求和操作 层。由以上分析可知,式(8.)结合了剩余网络和密集网络的特点并加以扩展。

最后,单个MRDB的输出可以表示为

我们假设模型的增长率是 [45.].每一个 生产 特征图,结果是 在哪里 为输入层的特征图通道数。

3.1.4。实现细节

我们使用图中所示的结构2(b)2 (c)在单个残留的密集网络和多分析密集网络中。在实验中,所有卷积层的核过滤步长度为1.核深度 分别是128和64。由于多残差密集网络具有更深、更密集的连接,必然会导致模型参数的增加。执行 特征输入后的卷积是减少模型参数的常见方法[45.50.].我们的 形式是Conv ( )-Bn-conv( )-BN。此外,每个多攻击密集块的最终级联操作会产生大量的特征图。我们用 卷积以减少其数量并遵循批量归一化操作以馈送下一个多分歧密集块。我们让单个残余密集块的数量和多分歧密集块 在实验中被设置为8或4。

3.2。低分辨率网络

图的底部1显示整体低分辨率三维重建网络。首先,采用多特征融合的二维编码器将输入图像编码为固定长度的隐层向量;然后,利用传统的三维反褶积和三维ESPCN对隐向量进行解码,生成低分辨率的三维体;在接下来的部分,我们将分别介绍多特征融合的2D编码器和3D ESPCN。

3.2.1。具有多聚焦融合的2D编码器

在粗到细的三维物体重建方法中,高质量的低分辨率三维物体重建是其高分辨率三维重建的基础。为了进一步提高二维编码器的特征提取能力,提高模型的三维重构性能,我们使用不同层的特征图进行融合。改进后的网络比较如图所示3.

这两种编码器网络都由标准卷积层、批处理归一化层和漏整流线性单元(LReLU)组成。编码器将输入数据编码为低维隐藏向量,解码器对压缩向量进行解码,重建三维物体。该方法的优点是可以将输入的高维数据压缩为低维表示,然后通过该表示重建其三维对象。

通过观察图中的传统编码器3(一个),我们发现此模式的编码器具有较少的特性利用率。在RDN的图像超级化实验中[50.],全局特征融合(GFF)方法被证明能够提高模型的性能。这是一种提取网络中所有剩余稠密块的输出进行融合的方法。受此启发,我们从每个非线性变换中提取输出 在编码器中保险丝,如图所示3 (b).匹配的数目 输出功能地图频道不同 图层,我们使用 卷积。定义 与部分一致3.1.由于特征融合后的卷积通道的数量太大,因此它们直接压缩到1024维特征向量将导致巨大的模型参数。因此,我们使用一个 卷积以减少融合功能的尺寸。Multififure Fusion编码器输出表示为

最后,编码器的输出经过平面层和全连接层压缩成1024维特征向量。我们发现多层特征融合能够鼓励模型学习新特征。

3.2.2。3D子像素卷积层

在图像超级化实验中,组合多个低分辨率图像(低分辨率空间中的特征图)以产生更高分辨率的图像是更有效的处理方法[40].由此引发,在基于体素的3D卷积神经网络中,多个低分辨率3D形状可以组合成更高的分辨率3D形状。此操作可以命名为3D SPCL,如图所示4.

通常,单个低分辨率3D容积的大小和单个高分辨率3D容积可以表示为 分别。我们会提到 作为上升比率。首先,使用传统的基于Voxel的解码器来生成 潜在空间的低分辨率3D形状,其大小为 然后,3D SPCL用于重新排列生成的 低分辨率3D形状成一个高分辨率3D形状。3D SPCL是一个定期操作,重新排列的元素 张量变成形状的张量 然后,这 频道和渠道 通道按顺序排列。最后是形状的张量 是输出。整个3D SPCL不涉及卷积操作。与基于体素的传统3D解码方法相比,该方法在更高分辨率下降低了3D去卷积操作。因此,在生成3D形状时,使用3D SPCL可以使模型具有更快的解码速度。

4.实验

在这部分中,我们展示了用于3D对象超级化和3D对象重建的改进的多视图分解(IMVD)网络的实验结果。此外,我们还分析了网络中每个组件的重要性。定性和定量结果表明,该方法可以提高模型的表达能力。

4.1。数据集和度量标准
4.1.1。3D对象超级化数据集

3D对象超级化数据集由一个组成 低分辨率体素模型和相应的 高分辨率体素模型。遵循MVD方法,我们也使用Shapenetcore [52.]数据集将CAD模型转换为Voxels表示的3D形状。从Shapenetcore数据集中选中两种课程:椅子和平面。他们的数字分别为7000和4000。我们预处理3D对象超级化数据集并提取与对应于低分辨率和高分辨率的数据集中的每个对象的6个正射深度映射(ODMS)。最终数据集分为培训集,验证集和测试集。我们使用70%的数据集作为训练集,10%作为验证集,并且为测试集20%。我们创建的数据集名为3D Superresolution数据集(数据SR.).

4.1.2。低分辨率3D重建数据集

基于Data的单张RGB图像的三维物体重建实验数据集SR..类似地,我们参考了MVD中相关的数据集生成方法。根据已完成的数据SR.,我们将每个CAD模型呈现为 RGB图像获取随机观点和可能的对象之间的方位角旋转 同样,根据3D超分辨率实验数据集,将完成的数据集划分为训练集、验证集和测试集,比例分别为70:10:20。最后,我们使用的数据集名为DataHSP.

4.1.3。评估指标

在所有3D重建实验中,评估度量使用联盟(iou)的交叉口。应用iou评估数据上的相应模型SR.和数据HSP.实现模型性能的定量分析。

4.2.培训细节

我们在两个阶段训练整个模型。3D超级化模型和低分辨线3D重建模型是单独培训的。最后,两个阶段的两个训练模型被组合以形成单个RGB图像的最终高分辨率3D对象重建模型,这是改进的多视图分解(IMVD)网络。

在三维物体超分辨率实验中,分别训练了轮廓估计网络和深度估计网络。在MVD之后,重建了三维物体的超分辨率实验 决议 决议。用于模型训练的数据集来自本节描述的3D超分辨率数据集4.1.在培训过程中,都使用adam [53.]默认参数培训,学习率是10-4,训练最小批量尺寸为32,训练epoch为300,误差函数使用均方误差(MSE)损耗功能。培训集用于网络培训,验证集用于评估每个时代末尾的模型性能。仅当重建结果评估的iou得分大于先前重建结果的最大IOU分数时,才能保留当前模型。

在低分辨率3D对象重建实验中,训练具有多聚焦融合和3D ESPCN解码器的编码器。使用ADAM优化器,学习率为10-3,训练最小批次为128,训练时代为300,平均误差项用作损耗功能。该模型的更新与3D对象超级化实验中的操作相同。

在轮廓估计网络之后,深度估计网络和低分辨率3D对象重建网络都被训练,3D模型雕刻组合了三个网络来实现高分辨率重建。对于模型雕刻,它包括剪影雕刻和深度地图雕刻。首先,使用估计的轮廓图雕刻了上采样后粗略的3D形状,以确保其结构的正确性。然后,估计的深度图将用于详细雕刻。在剪影雕刻后,尚未达到3D形状的相应深度的体素将被删除。我们使用Tensorflow架构实现了模型,并在单个NVIDIA GTX 1080 GPU上培训。

4.3。3D对象超级化实验
4.3.1。模型参数,大小和iou比较

表格1显示SRDN和MRDN对数据的实验比较SR.适用于不同块数的椅子 (8或4)和不同大小的特色地图 (128或64)。表格中斜体的数字1表示相应类别的3D重建的IOS分数最高。我们使用SRDN和MRDN在椅子的超级化实验中改善MVD,可以实现比MVD更高的IOU分数。我们大致计算具有16个残差块的MVD超级化网络层的数量,如图所示2(a)并且,层数为32.同样,通过MRDB改善的IMVD网络层的数量为72。


方法 参数 尺寸 IOU.

RB (39.] 5.28M. 211万 68.4
MRDN-4 ( 2.25m. 9.0m. 69.3.
SRDN-8 ( 1.83M 7.3m. 69.1.
MRDN-8( 1.00米 4.0米 69.2
SRDN-8 ( 7.27米 - -
MRDN-8( 3.97米 15.9米 69.8

从表中可以看出1,当网络层数增加约1倍时,MRDN模型参数减少约25%。以IoU重建评分为代价,在特征映射时模型参数降低了81% 减少了一半。我们观察到MRDB实验中,保持特征图 恒定和还原 一半会使模型IoU下降。这表明设计更深层次的网络可以增强模型的表达能力。在表1,MRDN-4( 和MRDN-8 ( 正在缩小 G, 分别。虽然iou得分几乎相同,但后者型号参数减少了大约56%。此外,当SRDN和MRDN接近获得的IOU分数时,MRDN模型参数可以减少45%。

4.3.2。定性结果

我们展示了图中的定性结果5..我们从32次渲染3.分辨率为256.3.在测试集中。实验使用真实椅子和飞机的低分辨率3D形状作为输入(图中直线1)5.).MVD的输出结果[39.]在图的第二行中显示5..IMVD结果显示在图中的第3行5..从图中的比较可以看出5., MVD方法倾向于在薄对象部分破裂。然而,我们的IMVD结果在这种情况下更为完整。实验结果表明,利用多残差密集网络提取更多的特征信息有利于增强模型的表达能力。

4.3.3。定量结果

我们在数据中培训了每个课程HSP.分别在3D对象超级化实验中。将结果与MVD中使用的各种方法进行比较,并在表格中呈现2.基准方法直接提高了三维体积的分辨率,从323.到256.3.通过最近的邻居上采样。MVD方法结合了深度估计和轮廓估计。从表中可以看出2我们的方法比实验中的MVD方法更好。我们都在不同类别中取得了更高的分数。


班级 基准(39.] 深度(39.] 剪影[39.] MVD [39.] IMVD(我们的)

椅子 54.9 58.5 67.3. 68.5 69.8
飞机 39.9 50.5 70.2 71.1 72.9

4.4。单图像3D重建实验
4.5。模型参数和迭代时间

我们给出了不同低分辨率三维重建模型的参数尺寸和所需迭代时间,如表所示3..从表中可以看出3.IMVD在参数的数量增加并且在迭代时间下降。通常,单个图像的3D重建实验通常在ShapEnet​​core数据集中使用13个类别。13个类别中的模型总数约为39,832。根据在本文中生成数据集的方法,每个类别的训练集中的模型数量约为2,144。根据表中的迭代时间3.以及本文的训练方法,13类IMVD的训练时间将比MVD减少约4小时。对于高分辨率的三维重建实验,该方法在训练时间上更有优势。


方法 参数(m) 迭代时间(MS)

MVD [39.] 27.02 50.8
mvd + mff 27.15 49.9
MVD + 3 d ESPCN 27.01 47.7
IMVD. 27.14 47.1.

4.5.1。收敛曲线分析

在图6.,我们在验证集上显示了收敛曲线。在图中6(一)6 (b),红色曲线分别代表了MVD方法在椅子和飞机验证集上的收敛性。类似地,绿色曲线对应于我们的IMVD方法。我们训练模型以使用相同的参数,只是改变模型的结构。训练时代为300,并在每个时代末尾的验证中评估重建的iou得分。原始MVD在培训椅的整个训练周期上振荡。我们的IMVD使用多因偶融合方法来降低模型振荡程度,有助于提高模型表达能力。在图6 (b)在美国,飞机模型本身没有像椅子那样复杂而薄的部件。因此,在验证集上,改进后的IMVD网络的收敛曲线与原始MVD网络的收敛曲线并没有太大的区别。综上所述,我们可以从图中的对比分析中看出6.改进后的网络可以提高模型训练的稳定性。

4.5.2。定量结果

我们在表格中显示了定量结果4..我们比较了几种方法,HSP [22], AE [39.]和mvd [39.,它们都使用DataHSP.从256重建从单个RGB图像中的3D对象3.决议。从表中可以看出4.,所提出的IMVD方法可以在单图像重建256上实现更高的IOU分数3.解决3 d对象。


班级 AE (39.] HSP [22] MVD [39.] IMVD(我们的)

椅子 36.4 37.8 40.1 41.9
飞机 28.6 56.1. 56.4 58.8.

4.6。消融研究

表格5.定量性地展示了MFF,3D ESPCN和MRDB的影响。重建结果的IOO分数位于第二列中,第三列分别对应于平面和椅子。最后一列代表了飞机和椅子重建结果的平均iou得分。表中的第一列5.表示我们提出的不同组件的组合。其中,以MVD方法为基准。我们添加MFF和MRDB(从表的第3行到第4行5.)到基准方法。由于3D ESPCN基本上没有提高模型的性能,因此可以看出添加另一个组件可以提高模型的性能。我们在基准上添加MFF和MRDB的组合的模块(在最后一行的表中5.).在添加两个组件后,模型的性能得到了进一步的提高。


组件 椅子 飞机 平均

基准(39.] 40.1 56.4 48.25
3 d ESPCN 40.2 56.4 48.30
MFF 41.2 57.9 49.55
MRDB 41.3 57.0 49.15
MFF + MRDB 41.9 58.6 50.25

数字7.定性地显示了MFF和MRDB在模型中的贡献。第一列的数字7.表示输入RGB图像。第二列是MVD的方法,并且重建结果在边缘部分(列3至5的列7.).然而,在添加MFF或MRDB后,部分骨折已经改善。此外,可以在图中重建第一行的重建7.椅背的输入RGB图像是一系列未连接的柱子。但是,MVD的3D重建结果不反映此功能。单独添加MFF或MRDB后,重建结果显示了该部分细节。组合MFF和MRDB后可以进一步增强此详细信息。从第三列的比较可以看出到图的第五列的比较7.IMVD的最终重建结果主要基于MFF精制。这也反映了解析低分辨率3D对象重建对高分辨率3D对象表示的影响。目前,数据集中的CAD模型的渲染以随机颜色执行,并且所有渲染图像的背景都是干净的。将来,具有纹理和背景的图像可用于渲染以丰富数据集,这将使模型从真实场景中的2D图像中的3D对象重建更强大。此外,还有其他方法,例如探索新算法以利用不同的培训架构提取更有效的图像特征,以及监督方法优化[54.].

5.结论

我们分别改进了MVD单图像的深度图超分辨率网络和低分辨率三维重建网络。在相应的实验中,改进后的模型比MVD模型表现出更好的性能。我们提出了一个包含多个MRDB块的体系结构,可以使网络结构设计更加深入,充分利用多层结构信息,增强模型的表达能力。虽然网络设计更深入,但模型参数更小。此外,我们利用多特征融合和三维ESPCN技术分别对二维编码器和三维解码器进行改进。这两种方法都可以减少模型的训练时间。目前,关于三维重建技术和基于深度学习的边缘计算的研究较少,但两者的结合具有广阔的应用前景。在智能制造中,边缘计算有利于将各种计算资源扩展到物联网的边缘,实现制造和生产[55.].然而,可能需要解决不同设备之间的3D数据异构问题。基于深度学习的三维重建方法可能是未来解决这一问题的手段之一。

数据可用性

用于支持本研究结果的3D模型数据集可以从公共网站下载:https://www.shapenet.org/

利益冲突

作者没有报告潜在的利益冲突。

作者的贡献

彭鹏,奎福和清金威同样为这项工作进行了贡献。

致谢

作者非常感谢中国国家自然科学基金(第62063006号),广西发展研究中心相对稀疏的少数群体(ID:GXRKJSZ201901),以及广西省的自然科学基金(2018GXNSFAA281164).本研究在广西高等教育机构占高校,广西大学,大学的历史千元培训项目经济支持,系统控制和信息处理。

参考

  1. J. L. Schönberger和J. Frahm,“从运动重新审视结构”,收录于计算机愿景和模式识别的IEEE会议的诉讼程序,pp.4104-4113,拉斯维加斯,纽约,美国,2016年。视图:出版商网站|谷歌学术
  2. K. Haming和G. Peters,“来自运动的结构重建管道——聚焦于短图像序列的调查”,Kybernetika.第46卷,第46期5, pp. 926-937, 2010。视图:谷歌学术
  3. C. Cadena, L. Carlone, H. Carrillo等人,“同步定位和地图的过去、现在和未来:走向稳健感知时代”,机器人上的IEEE交易,卷。32,不。6,pp。1309-1332,2016。视图:出版商网站|谷歌学术
  4. L. Galteri, C. Ferrari, G. Lisanti, S. Berretti,和A. Del Bimbo,“通过条件生成对抗网络的逐步增长的深度3D变形模型细化”,计算机视觉与图像理解,卷。185,pp。31-42,2019。视图:出版商网站|谷歌学术
  5. A. Kar,S. Tulsiani,J.Carreira和J.Malik,“来自单个图像的特定类别对象重建”2015年电脑视觉和模式识别(CVPR)的IEEE会议,pp. 1966-1974,波士顿,马,美国,2015年。视图:出版商网站|谷歌学术
  6. Z. Yao,D. He,Y. Chen等,“基于改进深度学习方法的高速列车底部检查外部物质”测量,卷。163,第108013号,2020年。视图:出版商网站|谷歌学术
  7. 李丽,“网络评论的文本质量对分类性能的影响:一个深度学习情感分析的案例”,神经计算与应用,卷。32,不。9,第4387-4415,2020。视图:出版商网站|谷歌学术
  8. 王涛,“智能交通系统中异常事件检测的智能视频分析方法”,IEEE智能交通系统交易,pp.1-9,2020。视图:出版商网站|谷歌学术
  9. 万绍华,夏瑜华,祁林。Yang和M. Atiquzzaman,《用种子点传播的灰度图像自动着色》,IEEE多媒体汇刊第22卷第2期7,页1756-1768,2020。视图:出版商网站|谷歌学术
  10. “基于视觉关系检测的视觉问题回答模型”,国家自然科学基金重点项目,项目主持。信号处理:图像通信,卷。80,第115648,2020条。视图:出版商网站|谷歌学术
  11. S. Ding,S.Qu,Y.Xi和S. WAN,“刺激驱动和图像标题的概念驱动分析,”Neurocomputing,卷。398,pp。520-530,2020。视图:出版商网站|谷歌学术
  12. C. Zhang,X. Guo,X. Guo等人,“机器学习模型对尖端光学相干断层扫描的自动分割和斑块盖厚度量化的比较”,工程与科学的计算机建模,卷。123,没有。2,pp。631-646,2020。视图:出版商网站|谷歌学术
  13. S. WAN,Z.Gu,Q. Ni,“医疗保健服务机器人边缘的认知计算和无线通信”电脑通讯,第149卷,第99-106页,2020年。视图:出版商网站|谷歌学术
  14. S. Wan和S. Goudos,“使用机器人视觉系统的多类水果检测的更快的R-CNN”,计算机网络,卷。168,第107036,2020条。视图:出版商网站|谷歌学术
  15. J. Chen,K. Li,Q. Deng,K. Li和P. S. Yu,“边缘计算的智能视频监控系统”分布式深入学习模型“工业信息学学报, 2019年。视图:出版商网站|谷歌学术
  16. C. Liu, Y. Cao, Y. Luo, et al.,“一种基于深度学习的食物识别系统用于边缘计算服务基础设施的膳食评估,”IEEE服务计算汇刊,卷。11,pp。249-261,2018。视图:出版商网站|谷歌学术
  17. A. Ndikumana, N. H. Tran, D. H. Kim, K. T. Kim, C. S. Hong,“基于深度学习的高速缓存在多访问边缘计算中的自动驾驶汽车,”IEEE智能交通系统交易,pp.1-16,2020。视图:出版商网站|谷歌学术
  18. Z.Wu,S. Song,A.Khosla等,“3D ShoadEnets:体积形状的深度表示,”2015年电脑视觉和模式识别(CVPR)的IEEE会议, pp. 1912-1920,波士顿,马萨诸塞州,美国,2015。视图:出版商网站|谷歌学术
  19. R. Girdhar,D. F.Fouhe,M. Rodriguez和A. Gupta,“学习对象的可预测和生成的矢量表示,”计算机愿景 - ECCV 2016. ECCV 2016,pp.484-499,斯普林斯,2016年。视图:出版商网站|谷歌学术
  20. C. b Choy, D. Xu, J. kwak, K. Chen, S. Savarese,“3D- r2n2:单一和多视图三维物体重建的统一方法”,在计算机愿景 - ECCV 2016. ECCV 2016,pp.628-644,Springer,2016。视图:出版商网站|谷歌学术
  21. M. Tatarchenko, A. Dosovitskiy,和T. Brox,“八叉树生成网络:用于高分辨率3D输出的高效卷积架构”2017 IEEE计算机视觉国际会议(ICCV),pp。2088-2096,威尼斯,意大利,2017年。视图:出版商网站|谷歌学术
  22. C.Häne,S. Tulsiani和J.Malik,“3D对象重建的分层表面预测”2017国际3D视觉大会(3DV), pp. 76-84,中国青岛,2017。视图:出版商网站|谷歌学术
  23. G. Riegler,A. O. Ulusoy,H. Bischof和A.Geiger,“OctNetFusion:从数据学习深度融合”2017国际3D视觉大会(3DV),第57-66页,中国青岛,2017年。视图:出版商网站|谷歌学术
  24. “基于边缘计算的实时三维重建的照片众包框架,”IEEE移动计算汇刊2020年。视图:出版商网站|谷歌学术
  25. J. Wu, C. Zhang, T. Xue, B. Freeman, and J. Tenenbaum,“Learning a probability latent space of object shapes via 3D generate -对抗性建模”,in神经信息处理系统进展,pp.82-90,巴塞罗那,西班牙,2016年。视图:谷歌学术
  26. 徐昕,张昕,刘昕,齐磊,“基于边缘的自适应计算卸载技术,”IEEE智能交通系统交易2020年。视图:谷歌学术
  27. 徐旭东,刘旭东,尹旭东,“生成式对抗网络边缘计算训练任务的隐私感知卸载,”信息科学,卷。532,pp。1-15,2020。视图:出版商网站|谷歌学术
  28. Fan, H. Su, L. gu巴克斯,"从单一图像重建三维物体的点集生成网络",in2017年电脑视觉和模式识别的IEEE会议(CVPR),pp.605-613,檀香山,嗨,美国,2017年。视图:出版商网站|谷歌学术
  29. K. L. Navaneet, P. Mandikal, M. Agarwal,和R. V. Babu,“CAPNet:使用2D监督的三维点云重建的连续近似投影”,在AAAI人工智能会议论文集,页8819-8826,希尔顿中城,纽约,美国,2019。视图:谷歌学术
  30. P.Mandikal和V.B.Radhakrishnan,“使用深金字塔网络的密集3D点云重建”2019 IEEE冬季计算机视觉应用大会(WACV),pp.1052-1060,Waikoloa村,嗨,美国,2019年。视图:出版商网站|谷歌学术
  31. H. Kato和T. Harada,“学习视图先验的单视图3D重建”2019年计算机视觉和模式识别(CVPR)的IEEE / CVF会议,第9778-9787页,加州长滩,美国,2019。视图:出版商网站|谷歌学术
  32. 文灿,张颖,李振宇,傅颖,“基于变形的多视图三维网格生成”,《中国科学院院刊》,20182019 IEEE/CVF计算机视觉国际会议(ICCV),pp.1042-1051,慕尼黑,德国,2019年。视图:出版商网站|谷歌学术
  33. T. Groueix, M. Fisher, V. G. Kim, B. C. Russell,和M. Aubry,“一个papier-mâché方法来学习3D表面生成,”在2018年IEEE / CVF计算机视觉和模式识别, pp. 216-224,盐湖城,UT,美国,2018。视图:出版商网站|谷歌学术
  34. 邹志强,杨建军,“基于递归神经网络的3D-PRNN生成方法”,《自动化学报》IEEE计算机愿景国际会议的诉讼程序,页900-909,威尼斯,意大利,2017。视图:谷歌学术
  35. Wang P. S. Wang, Y. Liu, Y. X. Guo, C. Sun, and X. Tong,“O-CNN:基于八叉树的三维形状分析的卷积神经网络,”ACM图形交易第36卷第2期4, pp. 72-81, 2016。视图:谷歌学术
  36. J. J. Park, P. Florence, J. Straub, R.纽科姆和S. Lovegrove,“DeepSDF:学习连续符号距离函数的形状表征”,发表于计算机愿景和模式识别的IEEE会议的诉讼程序,第165-174页,加州长滩,2019年。视图:谷歌学术
  37. 问:徐,W.Wang,D.锡兰,R. MECH和U. Neumann,“Dison:用于高质量单视图3D重建的深度隐式地面网络”神经信息处理系统进展,pp.495-502,温哥华,加拿大,2019年。视图:谷歌学术
  38. S. R. Richter和S. Roth,“Matryoshka网络:通过嵌套形状层预测3D几何形状”计算机愿景和模式识别的IEEE会议的诉讼程序,pp。1936-1944,盐湖城,美国,2018年。视图:谷歌学术
  39. E. Smith,S. Fujimoto和D. Meger,“高分辨率3D对象表示的多视图剪影和深度分解,”神经信息处理系统进展,pp.6479-6489,Montréal,加拿大,2018年。视图:谷歌学术
  40. “基于高效亚像素卷积神经网络的实时单图像和视频超分辨率”计算机愿景和模式识别的IEEE会议的诉讼程序,pp.1874-1883,拉斯维加斯,纽约,美国,2016年。视图:谷歌学术
  41. 何凯,张昕,任舜,“基于深度残差学习的图像识别”计算机愿景和模式识别的IEEE会议的诉讼程序,pp.770-778,拉斯维加斯,NV,美国,2016年。视图:谷歌学术
  42. 吴建军,王颖,薛涛,孙旭东,“基于2.5D草图的三维形状重建”,发表于神经信息处理系统进展,pp.8-15,长滩,加利福尼亚州,2017年。视图:谷歌学术
  43. A. A. Soltani,H. Huang,J.Wu,T. D.Kulkarni,以及J.B.B.Benenbaum,通过建模多视图深度映射和具有深深生成网络的剪影,“综合3D形状”计算机愿景和模式识别的IEEE会议的诉讼程序,pp。1511-1519,嗨,美国,2017年。视图:谷歌学术
  44. C. Dong, C. C. Loy, K. He, X. Tang,“Learning a deep convolutional network for image super-resolution”,in欧洲电脑愿景会议的诉讼程序,第184-199页,cham2014。视图:谷歌学术
  45. G. Huang,Z. Liu,L. V.D.D.Maaten,K.Q.Weinberger,“密集连接的卷积网络”计算机愿景和模式识别的IEEE会议的诉讼程序,第4700-4708页,檀香山,美国,2017。视图:谷歌学术
  46. Y.陈,J.Li,H. Xiao,X. Jin,S. Yan和J. Feng,“双路网络”神经信息处理系统进展,第4467-4475页,加州长滩,美国,2017。视图:谷歌学术
  47. K.Fu,J.Peng,H. Zhang,X. Wang和F. Jiang,基于生成对抗网络的图像超分辨率:简要审查,“计算机、材料和continuum号,第64卷。第3页,1977-1997,2020。视图:出版商网站|谷歌学术
  48. Y. Tai,J. Yang和X. Liu,通过深度递归残余网络图像超分辨率,“计算机愿景和模式识别的IEEE会议的诉讼程序,pp.3147-3155,檀香山,嗨,美国,2017年。视图:谷歌学术
  49. C. LEDIG,L.THEIS,F.Huszár等,“使用生成的对抗网络,”照片逼真的单图像超分辨率“计算机愿景和模式识别的IEEE会议的诉讼程序,pp.4681-4690,檀香山,嗨,美国,2017年。视图:谷歌学术
  50. 张颖,田颖,孔玉英,钟伯良,傅玉英,“图像超分辨率的残差密集网络”计算机愿景和模式识别的IEEE会议的诉讼程序,pp.2472-2481,盐湖城,美国,2018年。视图:谷歌学术
  51. 王旭东,余凯等,“增强的超分辨率生成对抗网络”欧洲电脑愿景会议的诉讼程序,pp.63-79,慕尼黑,德国,2018年。视图:谷歌学术
  52. A. X. Chang, T. Funkhouser, L. gubas et al.,“ShapeNet:一个信息丰富的三维模型库”,2015,http://arxiv.org/abs/1512.03012视图:谷歌学术
  53. D. P. Kingma和J.Ba,“亚当:一种随机优化方法,”2014年,http://arxiv.org/abs/1412.6980视图:谷歌学术
  54. 傅凯,彭建平,何青,张宏生,“基于深度学习的单图像三维物体重建技术综述,”多媒体工具和应用程序,pp.1-36,2020。视图:谷歌学术
  55. 王旭东,韩艳,梁文昌,“边缘计算和深度学习的收敛性:综合研究”,IEEE通信调查和教程第22卷第2期2, pp. 869-904, 2020。视图:出版商网站|谷歌学术

版权所有©2020建胜彭等。这是分布下的开放式访问文章创意公共归因许可证,允许在任何媒介上不受限制地使用、传播和复制,但必须正确引用原作。


更多相关文章

PDF 下载引用 引文
下载其他格式更多的
订单印刷副本命令
意见67.
下载103
引用

相关文章

我们致力于尽快分享与COVID-19有关的调查结果。我们将为已接受的与COVID-19相关的研究文章以及病例报告和病例系列提供无限制的发表费用豁免。审查条款不包括在此豁免政策。在此注册作为评论员,帮助快速跟踪新的提交。