博文

戴琼海院士团队 | 用以图像去遮挡的基于事件增强的多模态融合混合网络

已有 1624 次阅读 2022-8-17 09:21 |个人分类:好文推荐|系统分类:论文交流

看透密集遮挡并重建遮挡物背后的场景图像是一项重要但具有挑战性的任务。清华大学戴琼海院士团队提出了一种基于事件增强的图像去遮挡成像多模态融合的混合网络，该网络使用事件流提供完整的场景信息，并使用图像帧提供颜色和纹理信息。同时，文章提出了一种基于脉冲神经网络 (spiking neural network, SNN)的事件流编码器，以有效地对事件流进行编码和去噪。此外还提出一种对比损失，以生成更清晰的结果。文章在一个真实的大规模基于事件及图像帧的图像去遮挡数据集中完成了测试。实验结果表明，所提方法取得了领先的性能。

Springer截图.jpg

图片来自Springer

透过密集的遮挡来捕捉场景，并生成没有遮挡的情况下的清晰图像是一项具有挑战性的任务。由于密集遮挡的存在，单个传统的基于帧的摄像机可捕获的场景中有效的视觉信息有限。图像去遮挡方法，例如合成孔径成像，旨在使用从多个视点获取的视觉信息(例如，来自相机阵列的图像)来重建没有遮挡的清晰场景图像，这对于许多计算机视觉任务非常重要，例如避障、跟踪以及目标检测。

传统的基于图像的图像去遮挡方法将相机阵列捕获的光场图像作为输入，重建无遮挡的清晰场景图像。这些方法基于一个基本假设，即由于从不同视点获取的图像遮挡情况各不相同，因此相机阵列可以获得互补的视觉信息。因此，通过融合这些光场图像可以获得清晰的场景图像。然而，尽管理论上，由足够多的摄像机组成的摄像机阵列可以获得完整的场景信息，但在实践中通常很难获得足够的互补的视觉信息，尤其是在极端密集遮挡的情况下。同时，获取大量图像可能会带来巨大的信息冗余，这是不必要的。因此，迫切需要探索新的没有冗余的视觉数据获取及处理方法，以更好地完成图像去遮挡任务。

近年来，事件相机得到了显著发展，带来了一种新的视觉范式。事件相机，例如动态视觉传感器，是新一代仿生视觉传感器，其每个像素点异步地响应该像素的亮度强度变化并以事件流的形式输出。与传统的基于帧的相机不同，事件相机的每个像素都是异步工作的，当在该像素触发事件时，会记录该像素当前时刻的亮度强度的对数。每当亮度强度的对数与该记录值相比的变化超过某个阈值时，将触发新事件。基于事件触发的原理，事件相机具有高时间分辨率、高动态范围、低能耗、无运动模糊等优势。这些优势使得事件相机广泛应用于目标识别、高帧率视频生成、光流估计以及3D重建等任务当中。

由于事件相机具有高时间分辨率，并且没有运动模糊，因此移动事件相机可以记录遮挡物背后场景的完整视觉信息。基于这一概念，Zhang等人提出了第一种基于事件的图像去遮挡方法。高时间分辨率事件流由事件相机以直线滑动方式拍摄，提供场景的完整视觉信息。同时，提出了一种混合模型，用于提取事件流特征并重建无遮挡的清晰图像。然而，应该注意的是，事件流只能记录亮度强度的变化，而不记录像素点亮度强度值，即不记录颜色等信息。因此，仅使用事件流合成图像，即仅基于记录的亮度强度变化去预测每个像素的亮度强度值，是一项欠定的任务，可能导致很严重的错误。

虽然事件相机具有极高的时间分辨率，能够完整地记录场景的视觉信息，但它也给数据处理带来了新的挑战。一方面，事件流是四元组列表的形式，不能直接使用卷积神经网络进行处理。因此，有必要探索有效的事件流编码方法。另一方面，事件相机捕获的原始事件流包含大量噪声，这可能会显著影响重建图像的质量。为了解决这些问题，本文利用脉冲神经网络(spiking neural network, SNN)对异步事件流进行编码，这在以前的一些工作中已被证明是有效的。

SNN是仿生人工神经网络(artificial neural networks, ANNs)，其脉冲神经元使用脉冲序列传递信息。不同的是，ANNs的神经元使用连续值和可微激活函数，SNNs的脉冲神经元则将脉冲序列作为输入，每个输入脉冲将引起神经元的隐藏状态的变化。当脉冲神经元的隐藏状态超过一定的阈值的时候，神经元会触发输出脉冲。因此，SNNs能够自然地编码异步事件流。同时，由于输出脉冲触发的原则，离散噪声事件无法对脉冲神经元的隐藏状态引起足够大的变化以引发输出脉冲。因此，离散噪声事件将被抑制。

为了应对上述挑战，本文提出了一种基于事件和图像帧的多模态融合的混合模型，该模型使用事件流和遮挡图像帧作为输入来合成无遮挡的清晰场景图像。与现有的基于帧的去遮挡方法相比，高时间分辨率事件流被用来解决密集遮挡情况下基于帧的方法中缺失有效视觉信息的问题。

框架.jpg

本文所提框架

与现有的基于事件的方法相比，利用遮挡帧提供低层级视觉信息，例如颜色和纹理，可以解决仅基于事件的图像重建欠定的问题。此外，本文利用SNN有效地编码事件流并抑制原始事件流中的噪声。同时，为了获得更好的图像去遮挡性能，本文还提出了一种对比损失。为了证实所提方法的有效性，本文收集了一个真实的大规模基于事件及基于图像帧的图像去遮挡数据集，并在其中完成了测试。实验结果表明，本文所提方法取得了领先的性能。所有源代码及数据集可见于

https://github.com/lisiqi19971013/Event_Enhanced_DeOcc。

本文贡献总结如下：

1) 针对基于事件和图像帧的图像去遮挡任务，提出了一种事件增强的多模态融合框架，该框架可以利用有遮挡的图像帧和事件流的互补优势，实现密集遮挡下的高效图像去遮挡。

2) 使用一个基于SNN的事件流编码器用于有效的事件流编码和去噪。此外，提出了一种对比损失，以生成更清晰的无遮挡场景图像。

3) 在大规模基于事件和图像帧的图像去遮挡数据集上的定性和定量实验结果表明，本文提出的方法达到了最先进的性能。

全文下载：

Image De-occlusion via Event-enhanced Multi-modal Fusion Hybrid Network

Si-Qi Li, Yue Gao, Qiong-Hai Dai

https://link.springer.com/article/10.1007/s11633-022-1350-3

https://www.mi-research.net/en/article/doi/10.1007/s11633-022-1350-3

MIR为所有读者提供免费寄送纸刊服务，如您对本篇文章感兴趣，请点击下方链接填写收件地址，编辑部将在7个工作日内为您免费寄送纸版全文！

收件信息登记：

https://www.wjx.cn/vm/rfQWEKc.aspx

Machine Intelligence Research（简称MIR，原刊名International Journal of Automation and Computing）由中国科学院自动化研究所主办，于2022年正式出版。MIR立足国内、面向全球，着眼于服务国家战略需求，刊发机器智能领域最新原创研究性论文、综述、评论等，全面报道国际机器智能领域的基础理论和前沿创新研究成果，促进国际学术交流与学科发展，服务国家人工智能科技进步。期刊入选"中国科技期刊卓越行动计划"，已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等数据库收录。