NeRV：Neural Representations for Videos

摘要
1. 介绍
2. 相关工作
3. 视频的神经表征
- 3.1 NeRV架构
- 3.2 模型的压缩
4. 实验
5. 总结

摘要

我们提出了一种新的视频神经表示(NeRV)，它对神经网络中的视频进行编码。与传统的视频以帧序列为输入处理视频不同，我们以帧索引为输入处理。给定一个帧索引，NeRV输出相应的RGB图像。神经网络中的视频编码是将神经网络简单地拟合到视频帧上，解码过程是一个简单的前馈操作。NeRV是一种基于图像的隐式表示，它输出整幅图像，与基于像素的隐式表示相比效率更高。有了这样的表示法，我们可以将视频视为神经网络，简化一些与视频相关的任务。例如，传统的视频压缩方法受到专门为该任务设计的长而复杂的管道的限制。相比之下，使用NeRV，可以使用任何神经网络压缩方法作为视频压缩的替代，并达到与传统的基于帧的视频压缩方法相当的性能。

1. 介绍

NeRV，它将视频表示为隐式函数，并将其编码到神经网络中。通过一个相当简单的深度神经网络设计，NeRV可以在给定帧索引的情况下，高质量地重建相应的视频帧。像素级表示输出每个像素的RGB值，而NeRV输出整个图像，如图2所示。传统的视频压缩框架涉及较多的问题，如确定关键帧和帧间信息、估计残差信息、对得到的图像块进行离散余弦变换等。相反，给定一个在NeRV中编码视频的神经网络，我们可以简单地将视频压缩任务视为一个模型压缩问题，并轻松地利用任何成熟的或前沿的模型压缩算法来实现良好的压缩比。我们探索了一个三步模型压缩管道:模型剪枝、模型量化和权重编码。

本文的贡献可以归纳为四个部分：

我们提出了一种新颖的视频图像隐式表示，将视频表示为神经网络，将视频编码转换为模型拟合，将视频解码转换为简单的前馈操作。
与像素级隐式表示相比，NeRV输出整幅图像，效率高，编解码速度提高，同时获得了更好的视频质量。
NeRV允许我们将视频压缩问题转换为模型压缩问题，使我们能够利用标准模型压缩工具，并达到与传统视频压缩方法相当的性能。
NeRV在其他任务中也显示出良好的结果，例如视频去噪。

2. 相关工作

隐式神经表示。隐式神经表示是一种对各种信号进行参数化的新方法。其关键思想是将对象表示为通过神经网络逼近的函数，该函数将坐标映射到相应的值。

视频压缩。最常见的做法是在使用传统视频压缩管道的同时，对某些组件使用神经网络。

模型压缩。其目的是通过减少参数的数量来简化原始模型，同时保持模型的准确性。
模型架构

3. 视频的神经表征

3.1 NeRV架构

在NeRV中，每个视频 V 用函数 fθ 表示，其中输入为帧索引 t ，输出为对应的RGB图像 vt 。利用深度神经网络 θ ， vt = fθ(t) 对编码函数进行参数化。因此，视频编码是通过拟合神经网络 fθ 到给定的视频，这样它可以将每个输入时间戳映射到相应的RGB帧。

输入嵌入 。通过将输入映射到高嵌入空间，神经网络可以更好地拟合高频变化的数据。

嵌入函数

网络体系结构。NeRV架构如图2 (b)所示。NeRV将嵌入的时间作为输入，输出对应的RGB帧。我们按照MLP层堆叠多个NeRV块，使不同位置的像素可以共享卷积核，从而形成一个高效有效的网络。

损失函数。对于NeRV，我们采用L1和SSIM损失的组合作为网络优化的损失函数，计算出预测图像和真实图像在所有像素位置上的损耗如下：

损失函数

3.2 模型的压缩

NeRV模型压缩由四个标准的顺序步骤组成:视频过拟合、模型剪枝、权重量化和权重编码。

视频压缩步骤
模型剪枝。给定一个神经网络拟合到一个视频上，我们首先使用全局非结构化剪枝来减小模型大小。根据权重值的大小，我们将低于阈值的权重设置为零。

模型量化。在模型剪枝之后，我们对所有的网络参数进行模型量化。NeRV只在训练过程之后进行量化。给定一个参数张量µ，通过公式，每个参数可以映射到一个bit长度值。

在这里插入图片描述

熵编码。我们使用熵编码进一步压缩模型大小。通过利用字符频率，熵编码可以以一种更高效的编解码器来表示数据。具体来说，我们在模型量化后采用哈夫曼编码。

4. 实验

4.1 训练数据和实现细节

我们对scikit-video中的 big buck bunny 序列进行了实验，以比对我们的NeRV与像素级隐式表示方法。为了与最先进的视频压缩方法进行比较，我们对目前广泛使用的UVG进行了实验。

在我们的实验中，我们使用Adam优化器训练网络，学习率为5e-4。对于UVG的消融实验，我们使用余弦退火学习率计划，batchsize大小为1，训练期为150，预热期为30。在与当前先进技术比较时，我们运行了1500个周期，batchsize为6个。对于“big buck bunny”的实验，我们训练1200个周期。

4.2 主要结果

我们将NeRV与 big buck bunny 视频中的像素级隐式表示相比较。我们以SIREN[5]和NeRF[4]为基线，其中SIREN[5]以原始像素坐标为输入，使用正弦激活，而NeRF[4]增加了一个位置嵌入层对像素坐标进行编码，使用ReLU激活。在表2中，NeRV在编码速度、解码质量和解码速度方面都大大优于它们。我们还在表3中对不同的训练时段进行了实验，实验清楚地表明，训练时间越长，视频的过拟合效果就越好。
训练结果对比

4.3 视频压缩效果

压缩消融。我们首先在视频big buck bunny上进行消融实验。图4显示了不同剪枝率下的结果，稀疏度为40%的模型仍然可以达到与完整模型相当的性能。在图5的模型量化步骤中，8位模型相对于原模型(32位)仍然保持视频质量。图6显示了NeRV的完整压缩管道，压缩性能对于不同大小的NeRV模型都相当稳健。

压缩消融
与最先进的方法比较。我们在UVG数据集上与最先进的方法进行比较。采用NeRV训练完网络后，我们应用模型剪接、量化和权重编码。图7和图8显示了速率失真曲线。

与传统方法比较

5. 总结

在这项工作中，我们提出了一种新的视频神经表示，NeRV，它将视频编码为神经网络。我们的重点是通过视频帧索引直接训练神经网络，输出相应的RGB图像，我们可以使用模型的权值来表示视频，这与传统的将视频视为连续的帧序列的表示完全不同。通过这样的表示，简单地应用一般的模型压缩技术，NeRV可以在视频压缩任务中媲美传统视频压缩方法的性能，而不需要设计一个长而复杂的管道。我们还表明，NeRV可以优于标准的去噪方法。