简介：针对无监督视频摘要的深度强化学习，具有多样性代表性奖励
再简介：经过分析，是对视频片段进行特征提取，并以此训练一个模型，然后对视频进行摘要分割，而其中过程中的有一个能存储关键帧的数组，则是需要的结果。（项目利用的方法）

项目目标以及算法的介绍

本项目中旨在的目标是关键帧的提取，并根据提取的关键帧来获取关键视频片段。
首先详细介绍Video-Summarization-Pytorch，这是一个视频摘要技术。所谓视频摘要，就是将视频拆解为简短的片段。采取的方法是开发了一个深度摘要网络(DSN)来进行视频摘要。这个DSN为每个视频帧都预测一个概率，然后根据概率分布选择帧，同时这也是我们需要的获取关键帧所需要的关键步骤。
接下来是论文的分析

学习过程

论文作者将视频摘要描述为一个顺序决策过程。同时开发了一个深度摘要网络(DSN)来预测视频帧的概率，并根据预测的概率分布来决定选择哪些帧。论文作者提出了一个端到端的、基于强化学习的DSN训练框架，其中作者设计了一个多样性-代表性reward函数，它直接评估生成摘要的多样性和代表性，如图所示。
在这里插入图片描述
通过强化学习训练深度总结网络(DSN)。DSN接收一个视频Vi并采取行动a（即一系列二进制变量），其中视频的部分被选择为摘要S。反馈奖励R(S)是基于摘要的质量，即多样性和代表性。

Deep Summarization Network

(DSN)采用了编解码器框架，编码器是一个卷积网络(CNN)，它从长度为T的输入视频帧中提取视觉特征，解码器是一个双向递归神经网络(BiRNN)，顶部有一个完全连接层(FC)。双向递归神经网络将整个视觉特征作为输入并生成相应的隐藏状态，每个隐藏状态(ht)都是前隐藏状态(hft)和后隐藏状态(hbt)的连接，它们封装了未来信息和过去信息，重点是第t帧周围的部分。以s型函数结束的FC层为每一帧预测一个概率pt，从这个概率中，一个帧选择动作被采样：
在这里插入图片描述
其中σ代表sigmoid函数，at ∈ { 0 , 1 } 表明第t帧是否被选中。为了简洁起见，省略了公式(1)中的偏差。视频摘要由选定的帧组成

Diversity-Representativeness Reward Function

训练期间，DSN将获得一个奖励R(S)，用来评估生成摘要的质量。DSN的目标是通过生成高质量的摘要，逐渐而最大化预期的奖励。一般来说，一个高质量的视频摘要应该是多样化的和代表原始视频的，以便可以最大限度地保留整个视频的时间信息。为此，作者提出了一种新的奖励，以评估生成的摘要的多样性和代表性的程度。该奖励由多样性奖励Rdiv和代表性奖励Rrep组成，详见论文

Training with Policy Gradient

Regularization

由于选择更多的帧也会增加奖励，作者对DSN产生的概率分布p1：T施加一个正则化项，以限制为摘要选择的帧的百分比。

在这里插入图片描述
其中ε 决定要选择的帧的百分比。
此外，作者也增加了ℓ 2正则化项在权重参数θ 上，以避免过拟合。

Optimization

Extension to Supervised Learning

给定一个视频的关键帧索引，Y∗={yi∗|i=1，…，|Y∗|}，作者使用最大似然估计(MLE)来最大化选择由Y∗指定的关键帧的对数概率，logp(t；θ)，其中t∈Y∗。p(t；θ)是由等式计算得出的 (1).该目标被形式化为

在这里插入图片描述
Summary Generation

对于一个测试视频，作者应用一个训练过的DSN来预测帧选择概率作为重要性分数。通过平均同一镜头中的帧级分数来计算射击级分数。对于时间分割，我们作者了(Potapovetal.2014)提出的KTS。为了生成一个摘要，通过最大化总分来选择镜头，同时确保摘要长度不超过一个限制，即通常是视频长度的15%。最大化步骤本质上是0/1的背包问题，这被称为np困难。作者通过动态规划得到了一个接近最优的解(Songetal.2015)。除了评估实验部分生成的摘要外，作者还对DSN的原始预测进行了定性分析，以排除这个总结生成步骤的影响，这样可以更好地理解DSN学到了什么。

[项目实训]——Video-Summarization-Pytorch

项目目标以及算法的介绍

学习过程