51c视觉~合集21-CFANZ编程社区

#HWformer西工大&台湾清华&西电&港中文 3位 IEEE Fellow 提出异构窗口 Transformer 的图像去噪方法

本文分享论文Heterogeneous window Transformer for image denoising，HWformer旨在通过捕捉全局上下文信息来增强像素之间关联，提高去噪效果，并通过建立长距离和短距离建模之间联系来提高去噪性能、

单位：西北工业大学，台湾清华大学，西安电子科技大学，香港中文大学（深圳）

论文链接：https://arxiv.org/abs/2407.05709

代码链接：https://github.com/hellloxiaotian/HWformer

1.摘要

深度网络通常可以通过提取更多的结构信息来提高去噪效果。然而，它们可能会忽略图像中像素之间的相关性，以追求更好的去噪性能。窗口变换器（Window Transformer）可以使用长距离和短距离建模来交互像素，以解决上述问题。

为了在距离建模和去噪时间之间取得平衡，我们提出了一种异构窗口变换器（Heterogeneous Window Transformer，简称HWformer）用于图像去噪。HWformer首先设计了异构全局窗口来捕获全局上下文信息，以提高去噪效果。为了在长距离和短距离建模之间建立桥梁，全局窗口会进行水平和垂直的偏移，以促进多样化的信息获取，而不增加去噪时间。

为了防止独立块的信息丢失现象，稀疏思想引导前馈网络提取邻近块的局部信息。提出的HWformer在去噪时间上仅占流行Restormer的30%。

2.方法及贡献

尽管窗口变换器能够依靠短距离建模来减少去噪时间，局部窗口可能会限制上下文的交互。此外，现有的基于变换器的长距离建模会增加去噪时间。

为了在距离建模和去噪时间之间搭建桥梁，我们在图像去噪中提出了一种异构窗口变换器（HWformer）。HWformer首先设计了异构全局窗口，以尽可能保证自注意力机制的交互，从而获得更多的全局上下文信息，以提升图像去噪的性能。为了打破长距离和短距离建模交互的限制，全局窗口会水平和垂直地进行偏移，以促进多样化的信息获取，而不增加去噪时间。

为了防止独立块的原生效应，稀疏思想首次嵌入到前馈网络中，以提取更多邻近块的局部信息。此外，提出的HWformer在去噪时间上仅占流行的Restormer的30%。

论文的贡献在于：

设计了不同大小的异构全局窗口，以便于获取更丰富的全局上下文信息，克服短距离建模的缺点；

首次在全局窗口中设计了不同方向的偏移机制，以在短距离和长距离建模之间搭建桥梁，提高去噪性能而不增加去噪时间；

在前馈网络中提出了稀疏技术，以在图像去噪中捕获更多邻近块的局部信息；

提出的HWformer具有更快的去噪速度，在图像去噪方面几乎是流行的Restormer的三倍。

51c视觉~合集21_视觉

图 1 HWformer 的结构

3.实验及结果3.1 实验设置

为了公平地评估我们的HWformer，采用了多个公共合成噪声和真实噪声图像数据集，如BSD500、DIV2K、Flickr2K、WED以及SIDD-Medium，来训练和评估HWformer的性能。实验设置包括将图像随机裁剪成固定大小的块以加速训练，并在具有高性能GPU的计算环境中使用Adam优化器和特定的训练参数进行模型训练。

此外，实验中还对HWformer的关键组件进行了消融研究，并采用了一系列定量指标（如PSNR、SSIM、FSIM等）和定性分析来全面评估其去噪效果和计算效率，确保了结果的公平性和全面性。

3.2实验结果

表I详细呈现了Urban100数据集上，针对15噪声水平时不同模型配置的图像去噪性能对比。各模型配置由不同ID标识，它们在全局窗口变换增强块（GTEBlock）内部，通过调整水平（Ho）、垂直（Ve）和普通（Co）Transformer的数量及其组合方式来区分。

实验结果揭示了一个趋势：随着GTEBlock中Ho、Ve、Co的组合数量增加，模型的去噪性能得到提升。以ID 1和ID 9为例，后者在GTEBlock中集成了更多种类的Transformer，并融合了稀疏技术，实现了更高的峰值信噪比（PSNR），分别为33.72 dB和33.94 dB。

特别是，ID 9相较于ID 8的改进，凸显了稀疏技术在增强局部信息提取和去噪性能方面的积极作用，PSNR从33.47 dB提升至33.94 dB。进一步比较ID 1、ID 2和ID 3，结果表明，结合不同方向的变换对于捕获图像的多维特征至关重要，这反映在它们均超越了仅采用Co的ID 1的PSNR值。

然而，增加Ho、Ve、Co的数量虽可优化性能，也可能导致模型复杂度上升。因此，设计模型时必须在性能提升和复杂度控制间寻求平衡。

综合考虑，ID 9的模型配置在维持合理的复杂度基础上，实现了最优的去噪效果，因而被视为最佳配置。

51c视觉~合集21_视觉_02

图2和图3提供了在Urban100数据集上，不同去噪方法对灰度图像去噪的视觉比较。

51c视觉~合集21_视觉_03

51c视觉~合集21_视觉_04

表II提供了在BSD68数据集上，不同窗口大小对于图像去噪性能影响的实验结果。表中列出了从4×4到96×96不同尺寸的窗口，并展示了使用这些窗口大小进行去噪时的峰值信噪比（PSNR）值。随着窗口大小的增加，去噪性能通常会提高。较小的窗口（如4×4、6×6、8×8）相比于大窗口（如48×48、96×96）捕获的上下文信息较少，导致去噪性能较低。

实验结果显示，使用96×96的窗口大小在去噪性能上取得了最佳结果（PSNR为31.99 dB），表明较大的窗口能够捕获更多的全局信息，从而提高去噪效果。

51c视觉~合集21_视觉_05

表III提供了在不同噪声水平下，即15、25和50，对Set12数据集中的灰度图像去噪方法的性能比较。

随着噪声水平的增加（从15到50），所有方法的去噪性能（以PSNR为衡量标准）普遍下降。这是因为更高的噪声水平意味着更多的信息丢失和干扰，使得去噪任务更加困难。表中列出了包括BM3D、TNRD、DnCNN、FFDNet、N3Net、FOCNet、RDDCNN、DGAL、CTNet、SwinIR和HWformer（本文提出的方法）在内的多种去噪方法。

对于每个噪声水平，HWformer在多个类别的图像上几乎总是展现出最佳或接近最佳的性能。特别是在噪声水平为50时，HWformer在多个图像类别上相比其他方法有显著的PSNR提升，例如在“Starfish”图像上，HWformer相比于排名第二的SwinIR方法提高了0.31dB。

在多个噪声水平下，HWformer多次获得最高或并列最高分数，这表明该方法在实验设置中具有较高的一致性和优越性。

51c视觉~合集21_视觉_06

表IV提供了在BSD68和Urban100数据集上，不同噪声水平（15、25和50）对灰度图像去噪方法性能的比较。

在BSD68和Urban100数据集上，HWformer在不同噪声水平下通常展现出接近最佳或最佳性能，这表明其算法在多种噪声条件下的有效性。特别是在Urban100数据集上，噪声水平为25时，HWformer相比Restormer实现了0.15dB的性能提升，这在图像质量提升方面是一个显著的改进。

HWformer在两个数据集上的性能稳定性表明，该方法对于不同类型的图像内容都具有较好的适应性和鲁棒性。

51c视觉~合集21_视觉_07

表V展示了在McMaster和Urban100数据集上，不同噪声水平（15、25和50）对彩色图像去噪方法性能的比较。LPIPS指标衡量了去噪图像与原始无噪声图像之间的感知相似度。HWformer在某些情况下展示了较低的LPIPS值，这意味着其去噪结果在视觉上更接近原始图像。

51c视觉~合集21_视觉_08

表VI提供了在CBSD68和Kodak24数据集上，不同噪声水平（15、25和50）对彩色图像去噪方法在结构相似性指数（SSIM）和特征相似性指数（FSIM）这两个评价指标上的性能比较。HWformer与其他流行去噪方法（如DnCNN、FFDNet、DRUNet、IPT、CTNet、SwinIR和EDT-B）进行了比较，在多个噪声水平下，HWformer在SSIM和FSIM指标上通常能够获得与或优于这些方法的结果。

51c视觉~合集21_视觉_09

表VII展示了不同彩色图像去噪方法在Urban100数据集上，针对不同噪声水平（15、25和50）的峰值信噪比比率（PSBR）性能比较。HWformer在噪声水平为15和25时，在Urban100数据集上取得了最佳性能，这表明其算法在低至中等噪声水平下能够有效地恢复图像细节。

51c视觉~合集21_视觉_10

图4和图5提供了Urban100数据集上，不同去噪方法对彩色图像去噪效果的视觉比较。

51c视觉~合集21_视觉_11

51c视觉~合集21_视觉_12

随着噪声水平的增加，去噪算法面临的挑战也随之增加，这可能导致色彩差异值变大，反映出去噪后的图像与原始图像在色彩上的差异。

表VIII 展示了在McMaster数据集上，不同噪声水平（15、25和50）下，彩色图像去噪方法在色彩差异方面的表现。在McMaster数据集上，HWformer在所有测试的噪声水平下均展现出最佳或接近最佳的色彩差异性能。

特别是在噪声水平为15和25时，HWformer实现了最低的色彩差异值，表明其在保持色彩准确性方面的优势。HWformer与其他去噪方法（如DnCNN、IPT、CTNet、SwinIR、Restormer和EDT-B）相比，在多数情况下能够提供更低的色彩差异值，这意味着HWformer在去噪过程中更好地保留了原始图像的色彩信息。

51c视觉~合集21_视觉_13

SPARCS数据集通常用于评估去噪算法在处理实际遥感图像数据时的性能，这些图像可能包含更复杂的噪声特性和场景。

表IX 展示了在不同噪声水平（15、25和50）下，彩色图像去噪方法在SPARCS数据集上的平均峰值信噪比（PSNR）性能比较。与其他去噪方法（如DnCNN、DRUNet、IPT、CTNet和SwinIR）相比，HWformer在低至中等噪声水平下展现出了卓越的性能，这可能归功于其异构窗口变换器的设计，能够有效地处理不同类型的噪声。

51c视觉~合集21_视觉_14

表X 展示了在CC数据集上，不同真实噪声条件下，各种去噪方法的性能比较。CC数据集包含了不同相机（如Canon 5D、Nikon D600、Nikon D800）在不同ISO设置下拍摄的图像。

这些设置反映了实际摄影中可能遇到的不同光照和噪声条件。HWformer在多数情况下展现出了优异的去噪性能，除了在Nikon D800 ISO=1600的设置中略低于其他方法外，它在多数情况下都取得了最高的PSNR值，特别是在Nikon D600 ISO=3200和Nikon D800 ISO=3200的设置中。

51c视觉~合集21_视觉_15

图6提供了在CC数据集上，不同去噪方法对真实图像去噪效果的视觉比较。

51c视觉~合集21_视觉_16

表XI 展示了在SIDD（Sparse Diverse Denoise Dataset）数据集上，不同去噪方法对真实噪声图像的处理性能，使用峰值信噪比（PSNR）作为评价指标。

HWformer的性能优于其他比较方法，例如，它比排名第二的MPRNet（39.52dB）高出0.19dB，这一差距在图像质量评估中是显著的。

由于SIDD数据集包含的图像是从智能手机相机中获取的，具有高真实性，HWformer在这一数据集上的优异表现进一步证实了其在实际智能手机图像处理中的应用潜力。

51c视觉~合集21_视觉_17

表XII 提供了不同图像去噪方法在参数数量、浮点运算次数（FLOPs）和运行时间方面的比较。

表中列出了IPT、SwinIR、Restormer、EDT-B和HWformer这五种方法的参数数量。参数数量反映了模型的复杂性和容量。尽管HWformer在参数数量上不是最轻量级的，但其FLOPs和运行时间表现出较高的效率。

特别是在96×96图像尺寸下，HWformer的运行时间显著低于其他方法，显示出较快的处理速度。HWformer虽然在参数数量上略高于SwinIR和EDT-B，但其FLOPs和运行时间都显示出较好的效率，这表明HWformer在保持较低计算成本的同时，能够实现有效的去噪性能。

HWformer的低运行时间特别适用于需要实时或近实时处理的应用场景，如智能手机摄影、视频监控等。

51c视觉~合集21_视觉_18

4.结论

本文提出了一种异构窗口变换器（Heterogeneous Window Transformer，简称HWformer）用于图像去噪。HWformer首先设计了异构全局窗口，便捕获更丰富的全局信息，克服了短距离建模的局限性。

考虑到短距离建模的优势，通过不同方向的平移对全局窗口进行操作，以便在不增加去噪时间的情况下获取多样化的信息。为了防止独立块的原生效应，首次将稀疏思想嵌入到前馈网络中，以提取邻近块的更多局部信息。提出的HWformer具有更快的去噪速度，适合于智能手机和相机。

在未来，作者将致力于减少HWformer的计算成本，进一步降低图像去噪的计算开销。

#T-Rex Label

超震撼 AI 自动标注工具，开箱即用、检测一切

“赛博螺丝工”解放双手的时刻来了！

重复手动拉框一直以来都是数据标注中最令人头疼的部分。人工标注不准确且低效，会严重影响数据集的质量。

人工标注费时费力

今天向大家介绍一款全新的交互式AI自动标注工具：T-Rex Label，可以帮助您显著提升标注效率。T-Rex Label 支持在密集场景下进行一键标注，适用于各行各业的数据集。作为一款开箱即用的工具，它将大幅提高您的标注效率。

AI 一键智能标注

T-Rex Label 如何实现提效 99%？

相信了解计算机视觉的朋友都会对刷新 SOTA 纪录的 Grounding DINO 和 T-Rex2 模型有所耳闻。这些都是由 IDEA 计算机视觉团队研发的开集目标检测模型，T-Rex Label 是由该团队基于 T-Rex2 推出的自动标注工具。接下来，我们就详细讲讲 T-Rex Label 如何借助 T-Rex2 实现“一键标注”与“检测一切”。

视觉提示，一键简化工作流程

T-Rex2 视觉提示功能相比于语言提示更高效。视觉提示可以直接框选 prompt 生成指令。语言提示在一些情况下则需要反复的措辞与修改，会消耗更多的时间。对于语言描述困难的物体，如复杂的形状或特殊的纹理，视觉提示可以有效降低语言障碍对标注过程的影响，即使在面对罕见的物体时也能提供准确高效的标注。

视觉提示演示

交互式视觉提示则可以让用户立即得到反馈，并在必要时进行快速修正，确保标注的准确性，提升数据质量。

交互式视觉提示演示

因此，T-Rex Label 的工作流程可以概括为：框选目标物体→ AI 一键标注→人工检查与 AI 辅助修正，省去了编排语言指令与手动拉框的过程，大大简化了标注流程，为研究人员节省了不少时间。

超越 GPT-4V, YOLOv8，效率、准确度兼备

在国外学者 Konlavach Mengsuwan 的论文[1] 中，更是直观地展示了 T-Rex 开集物体检测模型在计数方面的优势，远超 GPT-4V 和 YOLOv8！

GPT-4V 作为性能最强的多模态模型模型，在物体计数的速度与准确度上远不及T-Rex。在效率方面，T-Rex 可以实现0.5秒完成一张图片推理，包含物体检测与物体计数。GPT-4V 则需要 1.05 秒才能处理一张图片。在准确度方面，T-Rex 预测准确度 R2 值为 0.923，是 GPT-4V Zero-Shot 的2.5倍，这说明 T-Rex 的图片分析结果更接近真实情况，能实现高精确度的物体检测。

51c视觉~合集21_视觉_19

GPT-4 Zero-Shot VS T-Rex

T-Rex Label 的 AI 智能标注功能可以精准地按照提示识别物体。特别是针对高难度的复杂场景，T-Rex Label 更能展现出准确度优势。复杂场景除了物体数量，还存在物体大小、形状、角度的变异性，一些模型会在复杂场景中频频出错，因此还需要大量查缺补漏的时间。但 T-Rex Label 可以精准地识别出绝大部分物体，帮助标注员减少返工的时间。

复杂场景效果演示

使用预训练模型自动标注，通常需要收集数据、标注数据、微调模型、部署模型、再用于自动标注，这个周期较长，且耗时耗力。以 YOLOv8 为例，根据论文[1] 的实验结果，YOLOv8 需要花费大量的时间进行标注和训练，整个流程时长是 T-Rex 的194倍，标注的准确性也不及 T-Rex。

51c视觉~合集21_视觉_20

YOLOv8 VS T-Rex

卓越的零样本检测能力，让 T-Rex Label 无需额外的训练成本就可以直接应用到各类场景的标注中，具有极强的泛化能力。目前已知 T-Rex Label 在农业、工业、动物、生物、医药、OCR、零售、电子、运输、物流等多个领域的数据集上都表现优异。开发板商城天皓智联 TB上有视觉设备哦支持AI相关~ 大模型相关也可用 whaosoft aiot自动驾驶也可以哦

多行业适用

[1] Mengsuwan K, Palacio J C R, Ryo M. ChatGPT and general-purpose AI count fruits in pictures surprisingly well[J]. arXiv preprint arXiv:2404.08515, 2024.

T-Rex Label 无需下载安装，上手成本极低，还支持 Github 账号一键登录！