在 Spark 1.6 中，如何读取具有重复列名的 CSV 文件答案

【问题标题】：In Spark 1.6 , How to read a CSV file with duplicated column name在 Spark 1.6 中，如何读取具有重复列名的 CSV 文件
【发布时间】：2018-07-03 05:39:03
【问题描述】：

我无法找到读取列名重复两次的 CSV 文件的解决方案，但在读取 CSV 文件时出现错误，提示列名重复

有没有办法在不更改 CSV 文件的情况下在 spark 中处理这个问题？

我的 CSV 数据看起来像这样，由制表符 (\t) 和每列中的一些额外空格分隔。

col1    col2  col3
  2020  100   sometext

【问题讨论】：

您可以提供自定义架构
@RameshMaharjan，如果我提供自定义架构，它会抱怨我数据验证错误。知道为什么会这样吗？。
检查这个，stackoverflow.com/questions/33816481/…
类似这样的东西，即使数据类型是正确的，因为我猜是空格 --> 原因：java.lang.NumberFormatException：对于输入字符串：“20511”
checkout stackoverflow.com/questions/47021073/… 处理此类空间问题

标签： apache-spark

【解决方案1】：

您也可以尝试使用 textfile 方法读取 csv 文件，然后将它们转换为 DF 或将它们拆分映射回来后用作 RDD！

希望这行得通！

【讨论】：