【问题标题】:Read uncompressed thrift files in spark在 spark 中读取未压缩的 thrift 文件
【发布时间】:2016-10-04 17:47:19
【问题描述】:

我正在尝试让 spark 从 s3 读取未压缩的 thrift 文件。到目前为止,它还没有工作。

  • 数据作为未压缩的 thrift 文件加载到 s3 中。来源是 AWS Kinesis Firehose。
  • 我有一个工具可以毫无问题地反序列化文件,所以我知道 thrift 序列化/反序列化有效。
  • 在 Spark 中,我正在使用 newAPIHadoopFile
  • 使用大象鸟的 LzoThriftBlockInputFormat,我能够成功读取 lzo 压缩的 thrift 文件
  • 我不知道应该使用什么 InputFormat 来读取未压缩的 thrift 文件。

任何 InputFormats 都可以吗?我必须自己实现吗?

【问题讨论】:

  • 一个有点老的问题,但我在同样的情况下落后一步。你设法解决了吗?您能否以如何将数据加载到 spark 中的示例进行更新,以便我尝试从那里获取前言?谢谢!
  • 是的,我做到了。在下面发布我的答案。
  • 谢谢!我去看看!

标签: apache-spark thrift hadoop-lzo


【解决方案1】:

我最终编写了自己的自定义节俭反序列化器。

需要实现自定义 InputFormat 和自定义 RecordReader。仍然感到惊讶的是,某些库中尚不存在此类类。这两个类已经过测试并且可以工作,但是由于我在解决这个问题后不久就停止了该项目的工作,因此没有清理代码。

https://github.com/mklosi/thrift-deserializer

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-11-16
    • 2017-12-02
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多