0
点赞
收藏
分享

微信扫一扫

[项目实训]——Video-Summarization-Pytorch

程序员伟杰 2022-04-17 阅读 67
深度学习

简介:针对无监督视频摘要的深度强化学习,具有多样性代表性奖励
再简介:经过分析,是对视频片段进行特征提取,并以此训练一个模型,然后对视频进行摘要分割,而其中过程中的有一个能存储关键帧的数组,则是需要的结果。(项目利用的方法)

项目目标以及算法的介绍

本项目中旨在的目标是关键帧的提取,并根据提取的关键帧来获取关键视频片段。
首先详细介绍Video-Summarization-Pytorch,这是一个视频摘要技术。所谓视频摘要,就是将视频拆解为简短的片段。采取的方法是开发了一个深度摘要网络(DSN)来进行视频摘要。这个DSN为每个视频帧都预测一个概率,然后根据概率分布选择帧,同时这也是我们需要的获取关键帧所需要的关键步骤。
接下来是论文的分析

学习过程

论文作者将视频摘要描述为一个顺序决策过程。同时开发了一个深度摘要网络(DSN)来预测视频帧的概率,并根据预测的概率分布来决定选择哪些帧。论文作者提出了一个端到端的、基于强化学习的DSN训练框架,其中作者设计了一个多样性-代表性reward函数,它直接评估生成摘要的多样性和代表性,如图所示。
在这里插入图片描述
通过强化学习训练深度总结网络(DSN)。DSN接收一个视频Vi并采取行动a(即一系列二进制变量),其中视频的部分被选择为摘要S。反馈奖励R(S)是基于摘要的质量,即多样性和代表性。

Deep Summarization Network

(DSN)采用了编解码器框架,编码器是一个卷积网络(CNN),它从长度为T的输入视频帧中提取视觉特征,解码器是一个双向递归神经网络(BiRNN),顶部有一个完全连接层(FC)。双向递归神经网络将整个视觉特征作为输入并生成相应的隐藏状态,每个隐藏状态(ht)都是前隐藏状态(hft)和后隐藏状态(hbt)的连接,它们封装了未来信息和过去信息,重点是第t帧周围的部分。以s型函数结束的FC层为每一帧预测一个概率pt,从这个概率中,一个帧选择动作被采样:
在这里插入图片描述
其中σ代表sigmoid函数,at ∈ { 0 , 1 } 表明第t帧是否被选中。为了简洁起见,省略了公式(1)中的偏差。视频摘要由选定的帧组成

Diversity-Representativeness Reward Function

训练期间,DSN将获得一个奖励R(S),用来评估生成摘要的质量。DSN的目标是通过生成高质量的摘要,逐渐而最大化预期的奖励。一般来说,一个高质量的视频摘要应该是多样化的和代表原始视频的,以便可以最大限度地保留整个视频的时间信息。为此,作者提出了一种新的奖励,以评估生成的摘要的多样性和代表性的程度。该奖励由多样性奖励Rdiv和代表性奖励Rrep组成,详见论文

Training with Policy Gradient

Regularization

由于选择更多的帧也会增加奖励,作者对DSN产生的概率分布p1:T施加一个正则化项,以限制为摘要选择的帧的百分比。

在这里插入图片描述
其中ε 决定要选择的帧的百分比。
  此外,作者也增加了ℓ 2正则化项在权重参数θ 上,以避免过拟合。
  在这里插入图片描述
  
Optimization

Extension to Supervised Learning

给定一个视频的关键帧索引,Y∗={yi∗|i=1,…,|Y∗|},作者使用最大似然估计(MLE)来最大化选择由Y∗指定的关键帧的对数概率,logp(t;θ),其中t∈Y∗。p(t;θ)是由等式计算得出的 (1).该目标被形式化为

在这里插入图片描述
Summary Generation

对于一个测试视频,作者应用一个训练过的DSN来预测帧选择概率作为重要性分数。通过平均同一镜头中的帧级分数来计算射击级分数。对于时间分割,我们作者了(Potapovetal.2014)提出的KTS。为了生成一个摘要,通过最大化总分来选择镜头,同时确保摘要长度不超过一个限制,即通常是视频长度的15%。最大化步骤本质上是0/1的背包问题,这被称为np困难。作者通过动态规划得到了一个接近最优的解(Songetal.2015)。除了评估实验部分生成的摘要外,作者还对DSN的原始预测进行了定性分析,以排除这个总结生成步骤的影响,这样可以更好地理解DSN学到了什么。

举报

相关推荐

项目实训(三)

项目实训六

项目实训-杨桃

项目实训-不死僵尸

项目实训-小鬼僵尸

SDUCSRP项目实训一

项目实训-读报僵尸

项目实训-火爆辣椒

0 条评论