0
点赞
收藏
分享

微信扫一扫

论文阅读: A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer

芝婵 2022-02-11 阅读 57

引言

整体结构

BOVText数据集
  • 文中提出了一个大规模双语开放场景下的视频文本基准数据集(Bilingual Open World Video text benchmark dataset)。
  • 该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时还提供了丰富的标注类型(标题、字幕、场景文本等)。
  • 该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。
  • 这里给出一个视频截图,更多的请移步BOVText-Benchmark。

dataset demo

  • 值得一提的是,该数据集并未直接公布下载链接,而是需要填写相关申请表,表明其用途才能下载,详情参见:BOVText-Benchmark
TransVTSpotter
  • 整体结构图:
    TransVTSpotter
  • 首先感谢作者开源相关代码。然后,自己尝试只跑通推理代码,无奈项目中并没有相关的说明。没得办法,只能自己尝试阅读源码,看是否可以抽出仅含有推理的代码,以便整合到其他项目中使用。

思考

Q1: 视频OCR的意义何在?

  • 这个问题,自己也一直在找寻。从论文中,作者给出了一些相关应用,有结合视频中文本的视频理解(Video Understanding)、视频中字幕自动翻译(Video Caption Automatic Translation)和基于文本内容的视频检索(Video Retrieval)
  • 同时,我也从ICDAR的Text in Videos任务中去探寻,在任务概述中只说明了视频OCR任务是一件比较困难的事情,因为存在某些帧较为模糊的情况。如果单纯地将该任务视为图像的OCR,这样并没有充分利用到视频中连续帧之间的关系。通篇来看,整个任务概述并没有说明该任务有哪些切实的需求存在。我猜测,这个未来会作为一个视频内容理解的辅助手段,但不是核心的,真正核心还是多模态下的各种细分任务。

Q2: 视频OCR与关键信息提取结合

  • 关键信息提取指的是从所给图像中提取出{key:value}格式数据。举个例子来说,就像给一张带有身份证的图像,经过关键信息提取模型之后,可以知道OCR识别出的内容哪个是key,哪个是value。在视频场景下,可以快速提取视频中出现图像的keyvalue。但是好像也没啥用,哈哈哈😂

Q3: 如何提速与落地

  • 提速:论文中,采用的Backbone是ResNet50,整体模型较大,可以考虑换为轻量小模型,来做尝试。
  • 落地:因为视频OCR任务目前并没有显示存在的需求,所以涉及到落地场景,仍在探索当中。

Q4: 目前已有视频OCR开源项目有哪些?

  • 在这里,简单介绍一下自己开源的RapidVideOCR项目。
  • 相比于之前的VideoOCR,该项目更快、更准。目前支持中英文内嵌字幕的自动提取,且输出格式支持srt|txt|docx三种。
  • 详细参见:RapidVideOCR
举报

相关推荐

0 条评论