【发布时间】:2018-08-27 21:11:36
【问题描述】:
我有一个从 CSV 文件导入的 spark DataFrame。 在应用了一些操作(主要是删除列/行)之后,我尝试将新的 DataFrame 保存到 Hadoop,这会显示一条错误消息:
ValueError:年份超出范围
我怀疑某些 DateType 或 TimestampType 类型的列已损坏。至少在一个专栏中,我发现了一个年份为“207”的条目——这似乎造成了问题。
**如何检查 DataFrame 是否符合要求的时间范围?
我想过编写一个函数,该函数采用 DataFrame 并为每个 DateType / TimestampType-Column 获取最小值和最大值,但我无法让它工作。**
有什么想法吗?
PS:据我了解,spark 总是会检查并执行架构。这不包括检查最小值/最大值吗?
【问题讨论】:
标签: python apache-spark apache-spark-sql pyspark-sql