【发布时间】:2018-10-10 15:20:51
【问题描述】:
我正在使用 tf.data 从大型文本语料库中迭代批处理。
我只想将函数应用于数据子集(或批处理子集),而不是一个一个元素。
具体来说,我的数据迭代器产生
query, reply 有批次。它们都是正对,所以我只想洗牌下一批的子集(在这种情况下,只有“回复”批“)以生成随机负数。
例如, 输入:
query1 reply1
query2 reply2
query3 reply3
...
输出:
- 正对:
query1 reply1(与输入相同) - 否定对:
query1 replyN(回复随机打乱)
当然也可以只使用 python 打乱文本,但我想使用 tf.data 来提高效率,因为数据太大了。
【问题讨论】:
标签: python tensorflow tensorflow-datasets