B-Script:基于文本的推荐式视频B-roll编辑

栏目: 数据库 · 发布时间: 5年前

内容简介:在视频编辑中,向视频中加入B-roll是一种比较常见的做法。B-roll可以使得原视频变得更加丰富、更加吸引人。但是,对于新手来说,很难选择插入哪个B-roll,以及插入A-roll的哪个位置。因此,本文[1]提出了B-Script来辅助用户解决上述问题。特别的,B-Script主要针对vlog的B-roll插入问题。为了更好地设计B-Script,文章做了如下的分析:文章分析了Youtube上4个频道上1,100条vlog,并提取出其中的B-roll。通过分析这些vlog中的B-roll,文章得出了如下的

在视频编辑中,向视频中加入B-roll是一种比较常见的做法。B-roll可以使得原视频变得更加丰富、更加吸引人。但是,对于新手来说,很难选择插入哪个B-roll,以及插入A-roll的哪个位置。因此,本文[1]提出了B-Script来辅助用户解决上述问题。特别的,B-Script主要针对vlog的B-roll插入问题。

形式分析

为了更好地设计B-Script,文章做了如下的分析:

一些流行vlog的分析

文章分析了Youtube上4个频道上1,100条vlog,并提取出其中的B-roll。通过分析这些vlog中的B-roll,文章得出了如下的结论:首先,所有的B-roll可以被大致分为两个风格:低质量的社交媒体风格(social media style),以及高质量的专业风格(professional style)。同时,文章还发现了B-roll和文本之间存在着较为紧密的联系。例如,在文本中提到过的物体很有可能在接下来的B-roll中出现。此外,通过分析每一条B-roll,还可以发现大多数B-roll的长度在0.5-8秒,以及两条连续的B-roll之间的间隔的平均值为9秒。

经过专家注释的数据集的分析

文章中同时邀请了一些经验丰富的视频制作者,让他们在给定的一些视频中加入B-roll,来看他们插入B-roll的策略有没有相似之处。首先,对于每个视频,文章使用了Jaccard相似度来计算不同制作者插入的B-roll位置之间的相似度。结果是随机插入相似度的两倍。这表示着对于一个视频,的确存在着好的插入B-roll的位置。此外,文章还分析了视频的文本,并发现视频制作者选择查找B-roll的查询词(query word)通常在B-roll开始位置前后1秒之间。

B-Script用户界面

基于以上的分析,文章提出了B-Script的用户界面。如下图所示,B-Script有三个主要视图:视频面板(video panel),B-roll搜索面板(B-roll search panel),以及交互式视频文本(interactive video transcript)。

B-Script:基于文本的推荐式视频B-roll编辑

B-Script的用户界面

B-Script允许用户探索视频、搜索两种风格的B-Roll,以及插入B-Roll和视频的渲染。此外,文章中还提出了一种B-Roll的推荐算法,给用户推荐可能的B-Roll插入位置。

此前的分析已经得到了,B-Roll与视频文本之间存在着紧密的联系。因此,文章把每个B-Roll的第一个单词作为关键词(keyword),通过判断一个单词是否为关键词来决定是否在此处插入B-Roll。文章使用了每个单词的TF-IDF向量、单词情感态度、词性,以及在当前文本中的出现次数,将每个单词转化成了5,033维向量,再利用这些向量,以及由专家标注过的数据集,训练了一个SVM,来判断一个单词是否为关键词。

用户研究

文章为用户研究提出了一下三个问题:

  • 基于文本的用户界面是否比基于时间轴的用户界面更有效
  • 推荐系统是否对视频的编辑有帮助
  • 推荐系统是否对生成更好的视频有帮助

文章中为用户提供了三个用户界面进行比较:

  • 基于时间轴的用户界面(如下图)
  • 没有推荐系统的基于文本的用户界面
  • 带有推荐系统的基于文本的用户界面
B-Script:基于文本的推荐式视频B-roll编辑

基于时间轴的用户界面

同时,文章还为用户提供了三种推荐的方法:

  • 算法给出的推荐
  • 专家给出的推荐
  • 固定时间间隔给出的推荐

而问卷则对任务的难易度、帮助性,以及满意度等方面对用户进行询问。

结论

文章基于用户研究的结果,给出了如下的结论:

  • 基于文本的用户界面比基于时间轴的用户界面更有效
  • 基于文本的用户界面与基于时间轴的用户界面操作难度相当
  • 高质量的推荐很有用
  • 高质量的推荐对好的视频的生成有帮助

小结

本文提出了B-Script,一个帮助用户在视频中插入B-Roll的系统,以及B-Roll的推荐算法,能够帮助用户更好地进行B-Roll的编辑。

在未来的工作中,可能会设计其他类型的视频,如MOOCS等。此外,B-Roll与视频中其他的信号的关系,例如演讲者的停顿、手势行为等,有待更深的挖掘。

参考文献

[1]. B-Script: Transcript-based B-roll Video Editing with Recommendations. Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems . ACM, 2019.


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

数字民主的迷思

数字民主的迷思

[美] 马修·辛德曼 / 唐杰 / 中国政法大学出版社 / 2015-12-25 / CNY 39.00

马修·辛德曼著的《数字民主的迷思》主要讨论互联网对美国政治的影响,聚焦的是“民主化”这一课题。针对公众关于网络民主的美好想象与过分狂热,它通过对在线竞选、链接结构、流量模式、搜索引擎使用、博客与博主、内容生产的“规模经济”等主题的深入处理,借助大量数据图表与分析,勾勒出互联网政治的种种局限性。尤其表明,网络政治信息仍然为一小群精英与机构所创造和过滤,在网络的每一个层次和领域都仍然遵循着“赢家通吃”......一起来看看 《数字民主的迷思》 这本书的介绍吧!

在线进制转换器
在线进制转换器

各进制数互转换器

MD5 加密
MD5 加密

MD5 加密工具

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具