【问题标题】:In Spark 1.6 , How to read a CSV file with duplicated column name在 Spark 1.6 中,如何读取具有重复列名的 CSV 文件
【发布时间】:2018-07-03 05:39:03
【问题描述】:

我无法找到读取列名重复两次的 CSV 文件的解决方案,但在读取 CSV 文件时出现错误,提示列名重复

有没有办法在不更改 CSV 文件的情况下在 spark 中处理这个问题?

我的 CSV 数据看起来像这样,由制表符 (\t) 和每列中的一些额外空格分隔。

col1    col2  col3
  2020  100   sometext  

【问题讨论】:

  • 您可以提供自定义架构
  • @RameshMaharjan,如果我提供自定义架构,它会抱怨我数据验证错误。知道为什么会这样吗?。
  • 类似这样的东西,即使数据类型是正确的,因为我猜是空格 --> 原因:java.lang.NumberFormatException:对于输入字符串:“20511”
  • checkout stackoverflow.com/questions/47021073/… 处理此类空间问题

标签: apache-spark


【解决方案1】:

您也可以尝试使用 textfile 方法读取 csv 文件,然后将它们转换为 DF 或将它们拆分映射回来后用作 RDD!

希望这行得通!

【讨论】:

    猜你喜欢
    • 2017-08-07
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-07-28
    • 1970-01-01
    • 1970-01-01
    • 2021-04-16
    相关资源
    最近更新 更多