【问题标题】:Tensorflow TFDV does not work with Specific NaN valuesTensorflow TFDV 不适用于特定的 NaN 值
【发布时间】:2019-03-16 01:36:02
【问题描述】:

我正在使用 Tensorflow 数据验证从数据中生成统计信息,并推断要在 TFX 中输入的架构。

我没有找到任何指定 NaN 值的选项,例如。 g.,在 pandas 中有一个字段“na_values”,可以在其中指定读取数据时将被视为 NaN 的值。

我查看了整个 TFDV 文档,但没有找到。

tfdv.generate_statistics_from_csv(
    data_location,
    column_names=None,
    delimiter=',',
    output_path=None,
    stats_options=options.StatsOptions(),
    pipeline_options=None
)

options.StatsOptions()是生成统计信息的选项,比如sample_count、sample_rate等等……

对我来说,读取处理缺失值的数据没有意义,将数据保存为 Csv 或 TFRecord 并在导入 TFDV 后生成统计信息。

【问题讨论】:

    标签: tensorflow tensorflow-data-validation


    【解决方案1】:

    在 TFDV 0.13.0 中,您可以使用 tfdv.generate_statistics_from_dataframe 方法从 pandas Dataframe 生成统计信息。如果您的数据适合内存,您可以使用 pandas.read_csv 方法读取 CSV 文件(通过指定 na_values),然后使用上述方法生成统计信息。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2023-04-02
      • 2020-10-25
      • 2022-10-01
      • 1970-01-01
      • 2018-12-04
      • 1970-01-01
      • 2018-11-22
      • 1970-01-01
      相关资源
      最近更新 更多