【发布时间】:2016-09-17 21:36:44
【问题描述】:
我有一个TypedTipe[(String, String, Long)],其中第一个字符串只能假设有限(~10)个值。我想对输出进行分区,以便为每种类型创建一个文件夹(即 10 个具有第一个字符串名称的文件夹)。这在 Hive 中很容易实现,但是我在 Scalding 中找不到优雅的方法。方法def partition(p: T => Boolean): (TypedPipe[T], TypedPipe[T]) 将管道分成两部分,但没有做我想要的。
编辑
- 我正在使用烫伤
v0.13.1 - 我需要写一个
PackedAvroSource
【问题讨论】:
标签: java scala hadoop scalding data-partitioning