【问题标题】:In Tensorflow's Dataset API how do you map one element into multiple elements?在 Tensorflow 的 Dataset API 中,如何将一个元素映射到多个元素?
【发布时间】:2018-07-06 10:00:30
【问题描述】:

在 tensorflow Dataset 管道中,我想定义一个自定义映射函数,它接受单个输入元素(数据样本)并返回多个元素(数据样本)。

下面的代码是我的尝试,以及想要的结果。

我无法很好地遵循 tf.data.Dataset().flat_map() 上的文档,无法理解它是否适​​用于此。

import tensorflow as tf

input = [10, 20, 30]

def my_map_func(i):
  return [[i, i+1, i+2]]       # Fyi [[i], [i+1], [i+2]] throws an exception

ds = tf.data.Dataset.from_tensor_slices(input)
ds = ds.map(map_func=lambda input: tf.py_func(
  func=my_map_func, inp=[input], Tout=[tf.int64]
))
element = ds.make_one_shot_iterator().get_next()

with tf.Session() as sess:
  for _ in range(9):
    print(sess.run(element))

结果:

(array([10, 11, 12]),)
(array([20, 21, 22]),)
(array([30, 31, 32]),)

期望的结果:

(10)
(11)
(12)
(20)
(21)
(22)
(30)
(31)
(32)

【问题讨论】:

    标签: python tensorflow tensorflow-datasets


    【解决方案1】:

    还需要两个步骤才能实现这一目标。首先,map 函数需要返回一个 numpy 数组,而不是列表。

    然后您可以使用flat_map 结合Dataset().from_tensor_slices() 来展平它们。下面的代码现在产生了预期的结果:

    在 Tensorflow 1.5 中测试(复制/粘贴可运行示例)

    import tensorflow as tf
    import numpy as np
    
    input = [10, 20, 30]
    
    def my_map_func(i):
      return np.array([i, i + 1, i + 2])
    
    ds = tf.data.Dataset.from_tensor_slices(input)
    ds = ds.map(map_func=lambda input: tf.py_func(
      func=my_map_func, inp=[input], Tout=[tf.int64]
    ))
    ds = ds.flat_map(lambda x: tf.data.Dataset().from_tensor_slices(x))
    
    element = ds.make_one_shot_iterator().get_next()
    
    with tf.Session() as sess:
      for _ in range(9):
        print(sess.run(element))
    

    如果您有多个要返回的变量,这是一种执行此操作的方法,在此示例中,我输入一个字符串(例如文件名)并输出字符串和整数的倍数。在这种情况下,我为 [10, 20, 30] 的每个整数重复该字符串。

    复制/粘贴可运行示例:

    import tensorflow as tf
    import numpy as np
    
    input = [b'testA', b'testB', b'testC']
    
    def my_map_func(input):
      return np.array([input, input, input]), np.array([10, 20, 30])
    
    ds = tf.data.Dataset.from_tensor_slices(input)
    ds = ds.map(map_func=lambda input: tf.py_func(
        func=my_map_func, inp=[input], Tout=[tf.string, tf.int64]))
    ds = ds.flat_map(lambda mystr, myint: tf.data.Dataset().zip((
      tf.data.Dataset().from_tensor_slices(mystr),
      tf.data.Dataset().from_tensor_slices(myint))
    ))
    
    element = ds.make_one_shot_iterator().get_next()
    
    with tf.Session() as sess:
      for _ in range(9):
        print(sess.run(element))
    

    【讨论】:

    • 在 tensorflow 1.8 中,from_tensor_slices 和 zip 现在是静态方法,所以 flat_map 行应该是:ds = ds.flat_map(lambda mystr, myint: tf.data.Dataset.zip(( tf.data .Dataset.from_tensor_slices(mystr), tf.data.Dataset.from_tensor_slices(myint)) ))"
    • 引自文档。出于性能原因,我们鼓励您尽可能使用 TensorFlow 操作来预处理您的数据。lambda x : [[x, x+1, x+2]] 应该是更好的解决方案。
    【解决方案2】:

    使用flat_mapfrom_tensor_slices 的干净解决方案

    import tensorflow as tf
    
    input = [10, 20, 30]
    
    ds = tf.data.Dataset.from_tensor_slices(input)
    ds = ds.flat_map(lambda x: tf.data.Dataset.from_tensor_slices([x, x+1, x+2]))
    element = ds.make_one_shot_iterator().get_next()
    
    with tf.Session() as sess:
        for _ in range(9):
            print(sess.run(element))
    
    # 10
    # 11
    # 12
    # 20
    # 21
    # 22
    # 30
    # 31
    # 32
    

    【讨论】:

      【解决方案3】:

      只是想补充一点,这可以用于每个元素也是字典的数据集。例如,如果输入数据集的一个元素看起来像

      { 'feat1': [2,4], 'feat2': [3]}
      

      对于你想根据feat1中的元素拆分成元素的每个元素,你可以这样写:

      def split(element):
          dict_of_new_elements = {
              'feat1': [
                  element['feat1'][:, 0],
                  element['feat1'][:, 1]]
              'feat2': [
                  element['feat2'],
                  element['feat2']]
          }
          return tf.data.Dataset.from_tensor_slices(dict_of_new_elements)
      dataset.flat_map(split)
      

      这会产生

      [
          {'feat1': 2, 'feat2': 3},
          {'feat1': 4, 'feat2': 3},
      ]
      

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多