在 spark 中读取未压缩的 thrift 文件

【问题标题】：Read uncompressed thrift files in spark在 spark 中读取未压缩的 thrift 文件
【发布时间】：2016-10-04 17:47:19
【问题描述】：

我正在尝试让 spark 从 s3 读取未压缩的 thrift 文件。到目前为止，它还没有工作。

数据作为未压缩的 thrift 文件加载到 s3 中。来源是 AWS Kinesis Firehose。
我有一个工具可以毫无问题地反序列化文件，所以我知道 thrift 序列化/反序列化有效。
在 Spark 中，我正在使用 newAPIHadoopFile
使用大象鸟的 LzoThriftBlockInputFormat，我能够成功读取 lzo 压缩的 thrift 文件
我不知道应该使用什么 InputFormat 来读取未压缩的 thrift 文件。

任何 InputFormats 都可以吗？我必须自己实现吗？

【问题讨论】：

一个有点老的问题，但我在同样的情况下落后一步。你设法解决了吗？您能否以如何将数据加载到 spark 中的示例进行更新，以便我尝试从那里获取前言？谢谢！
是的，我做到了。在下面发布我的答案。
谢谢！我去看看！

标签： apache-spark thrift hadoop-lzo

【解决方案1】：

我最终编写了自己的自定义节俭反序列化器。

需要实现自定义 InputFormat 和自定义 RecordReader。仍然感到惊讶的是，某些库中尚不存在此类类。这两个类已经过测试并且可以工作，但是由于我在解决这个问题后不久就停止了该项目的工作，因此没有清理代码。

https://github.com/mklosi/thrift-deserializer

【讨论】：

猜你喜欢

1970-01-01
1970-01-01
1970-01-01
1970-01-01
2013-11-16
2017-12-02
1970-01-01
1970-01-01
1970-01-01

相关资源

下载 2022-11-30
下载 2023-01-01
下载 2023-01-10

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode