【发布时间】:2018-11-15 14:46:25
【问题描述】:
我们正在从 spark 写入文件并从 Athena/Hive 读取。 我们在使用 hive 时遇到了时间戳问题。
scala> val someDF = Seq((8, "2018-06-06 11:42:43")).toDF("number", "word")
someDF: org.apache.spark.sql.DataFrame = [number: int, word: string]
scala> someDF.coalesce(1).write.mode("overwrite").option("delimiter", "\u0001").save("s3://test/")
这会创建一个 parquet 文件,我创建了一个表
CREATE EXTERNAL TABLE `test5`(
`number` int,
`word` timestamp)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\u0001'
STORED AS INPUTFORMAT
'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
LOCATION
's3://test/'
选择查询失败,出现问题: HIVE_BAD_DATA:parquet中字段字的BINARY类型与表模式中定义的类型时间戳不兼容
在使用纯 csv 文件进行测试时,同样的情况。
scala>someDF.coalesce(1).write.format("com.databricks.spark.csv").mode("overwrite").option("delimiter", "\u0001").save("s3://test")
Table:
CREATE EXTERNAL TABLE `test7`(
`number` int,
`word` timestamp)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\u0001'
STORED AS INPUTFORMAT
'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
's3://test/'
当我们把它写成 parquet 文件时,你能帮忙解决什么问题吗?
【问题讨论】:
-
你能说明你使用的spark版本吗?
-
@SamsonScharfrichter 是唯一正确的答案。这种情况在 2020 年仍在发生。我希望这是解决这个问题的方式更加明显。
标签: scala apache-spark amazon-s3 hive parquet