【发布时间】:2016-02-27 03:40:12
【问题描述】:
我一直在尝试让用于读取 CSV 的 databricks 库正常工作。我正在尝试使用 scala api 将 hive 创建的 TSV 读入 spark 数据帧。
这是一个您可以在 spark shell 中运行的示例(我公开了示例数据以便它可以为您工作)
import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.types.{StructType, StructField, StringType, IntegerType};
val sqlContext = new SQLContext(sc)
val segments = sqlContext.read.format("com.databricks.spark.csv").load("s3n://michaeldiscenza/data/test_segments")
documentation 说您可以指定分隔符,但我不清楚如何指定该选项。
【问题讨论】:
标签: scala apache-spark