【问题标题】:How to convert hadoop avro, parquet, as well as text file to csv without spark如何在没有火花的情况下将 hadoop avro、parquet 以及文本文件转换为 csv
【发布时间】:2019-12-21 07:34:28
【问题描述】:

我有 avro、parquet 和文本文件的 hdfs 版本。不幸的是,我不能使用 spark 将它们转换为 csv。我从之前的一个问题中看到,这似乎是不可能的。 How to convert HDFS file to csv or tsv. 这可能吗?如果可以,我该怎么做?

【问题讨论】:

标签: scala


【解决方案1】:

This 将帮助您阅读 Avro 文件(只是避免架构演变/修改......)。 Example.

Parquet,可以使用parquet-mr,看看ParquetReader。 Example:忽略 Spark 的使用,他们只是使用它来创建 Parquet 文件,以便稍后与 ParquetReader 一起使用。

希望对你有帮助

【讨论】:

  • 感谢您的帮助。快速提问。这是否处理所有边缘情况?即空值。
  • 我认为可以,测试一下。您应该考虑的一件关键事情是它不支持方案演变。所有文件在读取时都应具有相同的架构。
  • 您能否再澄清一下,为什么我们需要同时序列化和去实现化。我以为我们会使用 filereader 读取 avro,然后写入 csv 否?
  • 你不需要两者。他们只是举了一个读写的例子。相应地使用你需要的任何东西
猜你喜欢
  • 2020-07-22
  • 2020-05-13
  • 2019-04-17
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2017-05-20
  • 2023-03-30
  • 2010-10-30
相关资源
最近更新 更多