Label Studio多媒体数据标注工具[5星推荐]

栏目: IT技术 · 发布时间: 4年前

一、简介

如果采集的数据有很多图片、音频视频链接,虽然Nvivo可以进行多媒体分析,但是需要事先下载好的多媒体文件导入到Nvivo才能进行。多媒体数据处理属于很hitech的部分,很难,大邓也不会(⊙o⊙)…

所以对于小白或者文科生而言还是没法用 python 自动化快速实现多媒体数据的标注,但是却可以让我们的标注过程更高效。今天介绍的label-studio库可以在没下载相关多媒体情况下,仅仅依靠图片、音频、视频的链接即可联网打开,进行标注。

标注多媒体

Label Studio多媒体数据标注工具[5星推荐]

导出数据

Label Studio多媒体数据标注工具[5星推荐]

这是我录制的操作教程,请结合文章观看。文末有资料下载获取方式

手机观看视频不太清晰,大家可以收藏本文回头在电脑看B站的视频。

Label Studio多媒体数据标注工具[5星推荐]

二、安装

三、创建项目

  1. 建议在 电脑桌面 新建一个文件夹 LabelStudio (好的名字容易记住^_^)

  2. 将路径切换至 LabelStudio文件夹 ,需在 命令行 执行下面命令

  1. 创建一个名叫 my_project 的项目,命令行执行

Label Studio多媒体数据标注工具[5星推荐]

打开项目

如果已经创建了my_project,操作方法与创建项目类似,但要注意step3应该改为

四、设置

根据自己需要标注的数据情况,我们需要设计标注页面。

4.1 标注默认项设置

默认的界面如下

Label Studio多媒体数据标注工具[5星推荐]

图片中有左侧html解读

  • 右侧Interface Preview是左侧html的渲染效果

  • 右下角Input Task Preview默认测试数据预览

  • $image是用来接收数据中的image字段

  • 如果标注数据有视频,value一定要用"$video",不然视频显示不了

  • name与toName应该一样

  • name不能重复

这块比较难理解,可看我的操作视频辅助你学习理解。该页面上方有很多不同任务类型对应的html设计,大家可以都点击蓝色链接查看一下。

4.1.1 数据

Label Studio多媒体数据标注工具[5星推荐]

假设我现在已有数据 data.csv ,需要标注

  • avatar

  • intro

  • video

我们平常采集到的视频链接是rawvideo,但是labelstudio不能用链接直接渲染出视频,所以实际上我们用的是 videovideo 中的src就是rawvideo

强调

带html样式的视频链接所在的列字段名一定要设置为video

4.1.2 diy自己的html

现在我们根据data.csv的三个字段avatar、intro、video,设计了三个View块。

Label Studio多媒体数据标注工具[5星推荐]

渲染图如果没出错,符合你的语气,就点击左下角 Save

4.2 导入数据

完成html设计后,这一步很简单,只需要上传需要标注的数据文件即可。

Label Studio多媒体数据标注工具[5星推荐]

因为我们的数据只有8条,所以这里生成了8个标注任务。我们可以先试一试,点explore tasks,探索一下我们设置项目任务。

Label Studio多媒体数据标注工具[5星推荐]

我们可以看到头像、简介、视频,并且对三个字段进行常识性标注。^_^

4.3 开始标注

前面不出错的话,这一步很简单,只需要标注几个数据,看看是否都能正常显示文本、图片和视频。如果没问题,咱们就可以开始标注,这是单机浏览器标注页面

Label Studio多媒体数据标注工具[5星推荐]

骚操作

标注是一个很累的事情,其实label-studio可以让你躺着玩手机一样进行标注。如果你的电脑和手机使用同一个wifi的话,手机浏览器访问 http://192.168.1.100:8200 即可在手机上完成标注。不过按键不如电脑上好用,而且有点bug,我尝试时没看到提交按钮。

4.4 导出数据

假设经过很多努力,我们已经将标注任务完成,一定记得导出数据哦。

导出的数据格式,支持json、csv/tsv。

Label Studio多媒体数据标注工具[5星推荐]

由于csv默认编码为utf-8, 所以用微软office打开会乱码,这里我用记事本打开,发现字段名多了 头像美不美,读后是否印象深刻,视频是否有bgm

注意

输出字段名与 4.1.2 diy自己的html 对比,我们发现Choices中的name值决定输出字段,所以不要像我这样随便起名字。

总结

label-studio在多媒体标注挺好用的,比较适合小数据量标注时候提高自己的标注效率。虽然NVivo也可以标注数据,但是都必须要先下载下来,而label-studio不需要下载,只需要保留多媒体链接即可。

其中要注意的是csv数据文件中的视频必须命名为video,且video字段都是html样式的数据。形如

精彩回顾

Python网络爬虫与文本数据分析

综述:文本分析在市场营销研究中的应用

数据分析中,文本分析远比数值型分析重要!(上)

数据分析中,文本分析远比数值型分析重要!(下)

Seaborn:一行代码生成酷炫狂拽的数据集可视化

50题matplotlib从入门到精通

30例 | 一文搞懂python日期时间处理

如何批量下载上海证券交易所上市公司年报

pdfkit | 自动化利器,生成PDF就靠它了

中文文本数据逻辑性分析库

中文文本分析相关资源汇总

cnsenti中文情绪情感分析库

如何使用Python快速构建领域内情感词典

Python数据分析相关学习资源汇总帖

漂亮~pandas可以无缝衔接Bokeh

YelpDaset: 酒店管理类数据集10+G

Loughran&McDonald金融文本情感分析库

公众号后台回复“ labelstudio ”即可获得文章教程

万水千山总是情,给我点好看可好❤


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

现代应用数学手册

现代应用数学手册

《现代应用数学手册》编委会 / 清华大学出版社 / 2005-1-1 / 48.00元

本书是进行科学计算的常备工具书,内容新颖,查阅方便,实用性强。主要介绍生产、科研、管理、数学等实践中在计算机上使用的各种计算方法和技巧。全书分为14章,依次为数值计算概论、插值法、函数逼近与曲线拟合、数值积分与数值微分、方程求根、线性方程组的直接解法和迭代解法、矩阵特征值问题、非线性方程组数值解与最优化方法、常微分方程初值问题和边值问题的数值解法、偏微分方程的数值解法、多重网络法和积分方程数值解法......一起来看看 《现代应用数学手册》 这本书的介绍吧!

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码

URL 编码/解码
URL 编码/解码

URL 编码/解码

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换