王飞跃的个人博客分享 http://blog.sciencenet.cn/u/王飞跃

博文

[转载]一种基于快速傅里叶变换的扩散模型图像修复方法

已有 723 次阅读 2024-1-11 09:00 |个人分类:论文交流|系统分类:论文交流|文章来源:转载

一种基于快速傅里叶变换的扩散模型图像修复方法

 

 

研究背景

 

图像修复是图像编辑和图像复原中的一个重要而实用的问题,它是利用已知部分的图像作为先验信息,推断缺失区域并生成与周围像素区域结构、纹理和语义一致的内容。然而,在遇到大面积掩膜或复杂图像语义时,传统图像修复方法缺乏高层次的视觉理解,难以生成视觉逼真且语义合理的补丁。针对这个问题,基于深度学习的修复方法通过从图像中提取浅层特征和深度语义信息,有效地解决了困扰传统方法的挑战。卷积神经网络可以自动提取深度图像特征,提高修复过程的准确性和鲁棒性。但由于卷积神经网络只能学习局部区域特征,在全局融合图像的上下文信息方面存在局限性。因此,本文提出了一种基于快速傅里叶变换的扩散模型(FFT-DM)用于图像修复。具体而言,FFT-DM利用去噪扩散概率模型(DDPM)提取全局结构信息并生成图像先验,并利用卷积神经网络提取尽可能多的细节信息。为了进一步增强该模型的有效性和效率,我们将快速傅里叶变换引入扩散模型,从图像中提取频域信息,以增强感知能力,提高图像修复的表征能力。实验结果表明,FFT-DM在定性分析和定量分析上已经获得良好的修复性能。

成果介绍

 

西北工业大学田春伟副教授课题组,首次提出一种基于快速傅里叶变换的扩散模型(FFT-DM)并用于图像修复。研究成果发表于Journal of Cyber-Physical-Social Intelligence 2022年第一卷第一期:Yuxuan Hu, Hanting Wang, Cong Jin, Bo Li, Chunwei Tian. "A Diffusion Model with A FFT for Image Inpainting" Journal of Cyber-Physical-Social Intelligence 2022, 1, 60-69. doi: 10.61702/MTPG8588.   

 

FFT-DM的网络结构图如图1所示。对于真实图像5.png,本文假设Untitled.png表示未知像素,Untitled 2.png表示已知像素,并在已知区域上进行高斯采样并生成图像Untitled 23.png,然后将其与未知区域3.png结合,得到DDPM逆过程在时间步骤 t 的输入4.png4.png4.png

 

1.png

 

FFT-UNet的结构如图2所示,它被用来建模高斯分布Untitled.png,以预测其参数Untitled2.pngUntitled3.png,然后对中间图像4.png进行高斯采样,得到逆过程在时间步骤 t 的输出5.png。具体而言,我们在UNet的bottleneck部分并联了一个由快速傅里叶卷积(FFC)和注意力机制组成的模块,并通过一个1×1卷积将通道数降为原来的64通道数。该设计是针对大部分卷积神经网络感受野有限的问题提出,目的是提取输入图像的频域信息并提供重要的全局上下文信息,以增强模型对图像整体结构信息的理解,进而提高图像修复效果和鲁棒性。   

 

2.png

 

本文提出的方法在CelebA-HQ基准数据集上超过了很多流行的方法,如:EdgeConnect、DeepFill v2、AOT-GAN和LaMa等。详细的图像修复结果如表1所示:

 

3.png

 

为了从视觉验证本文提出方法的有效性,本文制作了2组可视化图像。如图3所示,第一列为原始图像,第二列为不同掩膜下的图像,第三列为修复后的图像。结果表明,FFT-DM可以处理任意形状和尺寸的掩膜,在遇到大尺寸的掩膜时也能表现良好。此外,图4显示FFT-DM可以生成与周围区域的纹理和语义一致的多样化填充区域内容。这再次说明提出的FFT-DM对图像修复任务有效。   

 

4.png

 

 

结论

 

在本文中,作者们提出了一种基于快速傅里叶变换的扩散模型图像修复方法,FFT-DM。该方法生成的内容不仅在纹理上与周围区域一致,而且在语义上也能与周围区域保持一致。

 

FFT-DM使用扩散模型增加掩膜的自由度,并生成与原始图像的语义和纹理特征相匹配的图像先验。随后,FFT-DM利用UNet架构在DDPM的逆过程中捕捉更多的纹理特征和详细信息。此外,快速傅里叶变换机制被融入到扩散模型中,以挖掘频域特征并提升模型感知能力。大量实验证明,FFT-DM不仅能够生成具有高视觉质量的修复图像,并且能平衡图像修复效果和效率。接下来,作者们计划将FFT-DM扩展到处理多个低级视觉任务,如图像去噪和去模糊。   

 

         

作者及团队

 

5.png

胡雨轩,中南大学计算机科学与技术专业博士研究生,研究方向包括图像去噪、图像修复和深度学习等。已发表学术论文3篇,授权发明专利1项。

 

 

 

6.png

王瀚霆,西北工业大学软件工程专业本科生,研究方向包括图像修复和深度学习等。

 

 

 

7.png

靳聪,中国传媒大学副高级工程师,主要研究方向为人机混合表演、强化学习和音乐人工智能。目前担任CAAI Trans、FITEE等知名期刊的客座编辑,以及CAAI世界音乐人工智能大会、亚洲人工智能大会、ICCSI等国际会议的论坛主席及程序委员会委员。

 

 

 

8.png

李波,西北工业大学教授,博士生导师,主要从事多域信息协同与智能决策领域的研究。现任西北工业大学系统与控制工程系主任,“飞行器综合体效能分析”国家国际科技合作基地副主任,民盟西工大委员会秘书长。在《CAAI Transactions on Intelligence Technology》、《Remote Sensing》、《Defence Technology》、《航空学报》、《宇航学报》、《兵工学报》等高水平期刊发表学术论文100余篇,其中SCI/EI索引40余篇,申请专30余项,授权20余项,转化2项。担任《兵器装备工程学报》副主编,《Drones》《Journal of Cyber-Physical-Social Intelligence》编委,中国自动化学会混合智能专委会委员,中国人工智能学会人工智能与安全专委会委员,中国人工智能学会青年工作委员会委员,中国指挥与控制学会集群智能与协同控制专委会委员,民盟陕西省委高等教育委员会委员。得到了科技部国际合作项目、国家级纵向等多个国家重点项目的支持,参加国家自然科学基金、航空科学基金等多个基金项目,个人获国防科技进步奖二等奖1项,陕西省高等学校科学技术进步奖二等奖1项等。   

 

 

 

9.png

田春伟,西北工业大学副教授及空天地海一体化大数据应用技术国家工程实验室成员。入选2023和2022年全球前2%顶尖科学家榜单、多项省级人才、多项市级人才、西北工业大学翱翔新星、2022省人工智能学会优秀博士论文、2021年深圳市CCF优秀博士学位论文、2022年哈尔滨工业大学优秀博士学位论文、2021年华为全球天才少年特别面试邀请。研究方向为视频/图像复原和识别、图像生成、深度学习等。在IEEE TNNLS、IEEE TMM、IEEE TSMC、IEEE TGRS、IEEE TIV、Pattern Recognition、Neural Networks、Information Sciences、Information Fusion和ICASSP等国际期刊和国际会议上发表论文60余篇。6篇ESI高被引论文,2篇ESI热点论文、4篇顶刊封面论文、5篇国际超分辨领域Benchmark List、1篇论文技术被美国医学影像公司购买商用、1篇论文技术被日本工程师应用于苹果手机上等。担任CAAI Transaction on Intelligence Technology, Dense Technology等多个SCI期刊的编委。国家自然基金评审专家、上海市科技专家、甘肃庆阳市数字经济发展专家、苏州市网络与信息化专家、苏州人工智能学会理事、全国研究生教育评估监测专家库专家等。



https://m.sciencenet.cn/blog-2374-1417284.html

上一篇:[转载]IV TIV Joint Workshop征稿开启!
下一篇:[转载]针对身份证文本识别的黑盒攻击算法研究

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-27 17:50

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部