IT资讯几行代码即可高效创建数据集，谷歌开源 TFRecorder

kenney · 2020-08-11 09:00:06 · 热度: 41

在训练计算机视觉机器学习模型时，数据加载常常会成为性能瓶颈，导致在等待将数据加载到模型中时 GPU 或 TPU 资源的利用率不足。以 TFRecord 格式存储数据集是一个行之有效的方法，然而，创建 TFRecord 通常需要大量的复杂代码。

于是，谷歌近期开源了 TensorFlow Recorder（即 TFRecorder）项目，旨在简化 TFRecord 的创建流程。TFRecord是一种二进制文件格式，处理数据相对高效，但要将其他数据转为 TFRecord 较为麻烦，通常需要编写一个数据管道来解析结构化数据，从存储中加载图像，然后再将结果序列化为 TFRecord 格式。而此次开源的 TFRecorder 能够直接从 Pandas dataframe 或 CSV 等格式写入 TFRecords，无需再编写复杂的代码。

使用 TFRecorder 创建 TFRecord 只需要几行代码，运行方式如下：

import pandas as pd
import tfrecorder
df = pd.read_csv(...)
df.tensorflow.to_tfrecord(output_dir="gs://my/bucket")

TFRecorder 期望写入的数据与 Google AutoML Vision 的格式相同，也就是类似 pandas dataframe 或 CSV 的格式，例如：

split	image_uri	label
TRAIN	gs://my/bucket/image1.jpg	cat

目前，TFRecorder 支持的数据格式还很有限，将来会进一步扩展，以支持使用任何格式的数据。

对于更庞大的数据集，TFRecorder 还提供了与 Google Cloud Dataflow 的连接性，扩展到 DataFlow 仅需要多几行代码配置。

关于 TFRecorder 的更多信息，可查看谷歌开源博客的介绍：https://opensource.googleblog.com/2020/08/introducing-tensorflow-recorder.html

猜你喜欢:

0 个赞 0 收藏

暂无回复。

需要登录后方可回复, 如果你还没有账号请点击这里注册。

IT资讯 几行代码即可高效创建数据集，谷歌开源 TFRecorder

IT资讯几行代码即可高效创建数据集，谷歌开源 TFRecorder