【发布时间】:2021-07-29 13:52:15
【问题描述】:
我为我的原始数据实现了custom TensorFlow Dataset。我可以以tensorflow.data.Dataset 的形式下载、准备和加载数据,如下所示:
import tensorflow_datasets
builder = tensorflow_datasets.builder("my_dataset")
builder.download_and_prepare()
ds = builder.as_dataset()
我想将这些数据转换为 TensorFlow Transform pipeline 以进行模型训练。但是,我能够将数据集传递到转换管道的唯一方法是将其转换为实例字典并传递原始数据元数据。
instance_dicts = tensorflow_datasets.as_dataframe(ds).to_dict(orient="records")
with tensorflow_transform.beam.Context():
(transformed_data, _), transform_fn = (
instance_dicts,
RAW_DATA_METADATA,
) | tensorflow_transform.beam.AnalyzeAndTransformDataset(
preprocessing_fn, output_record_batches=True
)
有没有一种更简单、内存效率更高的方法将 TensorFlow 数据集传递到 TensorFlow Transform 管道?
【问题讨论】:
-
你能看看这个doc。谢谢
标签: python tensorflow tensorflow-datasets tensorflow-transform