【发布时间】:2018-04-24 11:46:19
【问题描述】:
我想问一下当前的数据集API是否允许实现过采样算法?我处理高度不平衡的班级问题。我在想,在数据集解析(即在线生成)期间对特定类进行过度采样会很好。我已经看到了rejection_resample 函数的实现,但是这会删除样本而不是复制它们,并且它会减慢批量生成(当目标分布与初始分布有很大不同时)。我想要实现的是:举个例子,看看它的类概率决定是否重复它。然后调用dataset.shuffle(...)dataset.batch(...) 并获取迭代器。最好的(在我看来)方法是对低概率类进行过采样,并对最可能的类进行二次抽样。我想在网上做,因为它更灵活。
【问题讨论】:
-
你应该接受你的答案:)
标签: python tensorflow sampling tensorflow-datasets