【发布时间】:2016-10-04 17:47:19
【问题描述】:
我正在尝试让 spark 从 s3 读取未压缩的 thrift 文件。到目前为止,它还没有工作。
- 数据作为未压缩的 thrift 文件加载到 s3 中。来源是 AWS Kinesis Firehose。
- 我有一个工具可以毫无问题地反序列化文件,所以我知道 thrift 序列化/反序列化有效。
- 在 Spark 中,我正在使用 newAPIHadoopFile
- 使用大象鸟的 LzoThriftBlockInputFormat,我能够成功读取 lzo 压缩的 thrift 文件
- 我不知道应该使用什么 InputFormat 来读取未压缩的 thrift 文件。
任何 InputFormats 都可以吗?我必须自己实现吗?
【问题讨论】:
-
一个有点老的问题,但我在同样的情况下落后一步。你设法解决了吗?您能否以如何将数据加载到 spark 中的示例进行更新,以便我尝试从那里获取前言?谢谢!
-
是的,我做到了。在下面发布我的答案。
-
谢谢!我去看看!
标签: apache-spark thrift hadoop-lzo