【发布时间】:2018-10-12 04:00:38
【问题描述】:
我有一个包含超过 5000 列的数据集,并且在尝试读取数据集时抛出了 OutOfMemoryException,即使限制为 10 行也是如此。 cause of exception 上还有另一篇文章,所以我只想阅读前 n 列以避免错误。
我找不到执行此操作的 api 调用,并且只能使用 head 或 limit 限制行。
有没有办法限制前几列?谢谢。
【问题讨论】:
-
你到底做了什么(代码)?
标签: apache-spark apache-spark-sql