【发布时间】:2018-10-18 00:53:35
【问题描述】:
使用 spark 流来读取和处理来自 Kafka 的消息并写入 HDFS - Hive。 由于我希望避免创建许多会向文件系统发送垃圾邮件的小文件,因此我想知道是否有办法确保最小的文件大小和/或强制文件中的输出行数最少的能力,除了超时。 谢谢。
【问题讨论】:
-
您是否考虑过使用Kafka Connect HDFS 连接器从Kafka 主题写入HDFS?与 Kafka Streams 或 KSQL 一起执行任何所需的处理。
-
Kafka KSQL/Streams 可以对 JSON 文件进行转换吗?在将 JSON 写入 HDFS-hive 之前,我需要能够处理 JSON 并执行一些转换。谢谢。
-
是的,他们可以。下面是一个简单的例子:confluent.io/blog/…
-
Kafka 消息只是字节,而不是文件。您可以编写任何消费者来解析 JSON 字符串、操作、写入单独的“丰富”或“过滤”主题,然后将其接收到 HDFS
标签: scala apache-spark hadoop apache-kafka spark-streaming