【发布时间】:2016-07-05 02:17:17
【问题描述】:
如何在不使用 databricks csv api 的情况下将 CSV 文件直接读取到 spark DataFrames 中?
我知道有 databricks csv api,但我不能使用它那个 api..
我知道有案例类可以使用并根据 cols(0) 位置映射列,但问题是我有超过 22 个列,因此我不能使用案例类,因为在案例类中我们只能使用 22 个列。
我知道有 structtype 来定义模式,但我觉得在 structtype 中定义 40 个列将是非常冗长的代码。
我正在寻找使用 read 方法读入数据帧的东西,但是在 spark 中我们没有对 csv 文件的直接支持,我们需要解析它吗?但是如果我们有 40 多个列怎么办?
【问题讨论】:
-
databricks csv api 有什么问题?
-
@Himaprasoon ,databricks csv api 没什么问题 ..实际上我必须编写认证 hortonworks hdpcd spark ,在考试中他们不提供 databricks api ..只有我们可以使用的 spark 内置 api...
-
我的回答有帮助吗?如果没有,你发现了什么?
标签: scala apache-spark apache-spark-sql spark-dataframe