【发布时间】:2016-07-07 03:46:02
【问题描述】:
我正在尝试将 csv 文件读入 Spark 中的 RDD(使用 Scala)。我已经做了一个函数来首先过滤数据,这样它就不会考虑标题。
def isHeader(line: String): Boolean = {
line.contains("id_1")
}
然后我正在运行以下命令:
val noheader = rawblocks.filter(x => !isHeader(x))
rawblocks RDD 从 26MB 大小的 csv 文件中读取数据
我收到 Task not serializable 错误。有什么解决办法?
【问题讨论】:
-
如上。 TaskNotSerializable 意味着调用函数的类中的其他内容不可序列化。如果您提供更多外部代码,我们可以提供帮助。此外,您的堆栈应该说明哪个类不可序列化。
标签: java scala serialization apache-spark