0

点赞

收藏

分享

论文阅读: A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer

芝婵 2022-02-11 阅读 60

标签: transformer 深度学习人工智能

引言

整体结构

BOVText数据集

文中提出了一个大规模双语开放场景下的视频文本基准数据集（Bilingual Open World Video text benchmark dataset）。
该数据集主要提供了2000+视频，1,750,000帧开放视频场景的视频。同时还提供了丰富的标注类型（标题、字幕、场景文本等）。
该数据集支持四个任务：视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。
这里给出一个视频截图，更多的请移步BOVText-Benchmark。

dataset demo

值得一提的是，该数据集并未直接公布下载链接，而是需要填写相关申请表，表明其用途才能下载，详情参见：BOVText-Benchmark

TransVTSpotter

整体结构图：
首先感谢作者开源相关代码。然后，自己尝试只跑通推理代码，无奈项目中并没有相关的说明。没得办法，只能自己尝试阅读源码，看是否可以抽出仅含有推理的代码，以便整合到其他项目中使用。

思考

Q1: 视频OCR的意义何在？

这个问题，自己也一直在找寻。从论文中，作者给出了一些相关应用，有结合视频中文本的视频理解(Video Understanding)、视频中字幕自动翻译(Video Caption Automatic Translation)和基于文本内容的视频检索(Video Retrieval)。
同时，我也从ICDAR的Text in Videos任务中去探寻，在任务概述中只说明了视频OCR任务是一件比较困难的事情，因为存在某些帧较为模糊的情况。如果单纯地将该任务视为图像的OCR，这样并没有充分利用到视频中连续帧之间的关系。通篇来看，整个任务概述并没有说明该任务有哪些切实的需求存在。我猜测，这个未来会作为一个视频内容理解的辅助手段，但不是核心的，真正核心还是多模态下的各种细分任务。

Q2: 视频OCR与关键信息提取结合

关键信息提取指的是从所给图像中提取出{key:value}格式数据。举个例子来说，就像给一张带有身份证的图像，经过关键信息提取模型之后，可以知道OCR识别出的内容哪个是key，哪个是value。在视频场景下，可以快速提取视频中出现图像的key和value。但是好像也没啥用，哈哈哈😂

Q3: 如何提速与落地

提速：论文中，采用的Backbone是ResNet50，整体模型较大，可以考虑换为轻量小模型，来做尝试。
落地：因为视频OCR任务目前并没有显示存在的需求，所以涉及到落地场景，仍在探索当中。

Q4: 目前已有视频OCR开源项目有哪些？

在这里，简单介绍一下自己开源的RapidVideOCR项目。
相比于之前的VideoOCR，该项目更快、更准。目前支持中英文内嵌字幕的自动提取，且输出格式支持srt|txt|docx三种。
详细参见：RapidVideOCR

0 条评论

关注