【发布时间】:2018-07-03 05:39:03
【问题描述】:
我无法找到读取列名重复两次的 CSV 文件的解决方案,但在读取 CSV 文件时出现错误,提示列名重复
有没有办法在不更改 CSV 文件的情况下在 spark 中处理这个问题?
我的 CSV 数据看起来像这样,由制表符 (\t) 和每列中的一些额外空格分隔。
col1 col2 col3
2020 100 sometext
【问题讨论】:
-
您可以提供自定义架构
-
@RameshMaharjan,如果我提供自定义架构,它会抱怨我数据验证错误。知道为什么会这样吗?。
-
类似这样的东西,即使数据类型是正确的,因为我猜是空格 --> 原因:java.lang.NumberFormatException:对于输入字符串:“20511”
-
checkout stackoverflow.com/questions/47021073/… 处理此类空间问题
标签: apache-spark