【发布时间】:2018-07-29 07:07:11
【问题描述】:
关于我之前的question,当我发出命令时,
filePath = sc.textFile("/user/cloudera/input/Hin*/datafile.txt")
filePath.collect()
数据的某些部分在每个单词前面都有'\xa0' 前缀,而数据的其他部分没有那个特殊字符。我附上了 2 张图片,一张带有“\xa0”,另一张没有“\xa0”。 2张图片内容属于同一个文件。 Spark 仅以这种方式读取同一文件中的部分数据。我检查了 HDFS 中存在的原始数据文件,它没有问题。
我觉得这与编码有关。我尝试了所有方法,例如在 flatMap 中使用replaceoption,例如flatMap(lambda line: line.replace(u'\xa0', ' ').split(" "))、flatMap(lambda line: line.replace(u'\xa0', u' ').split(" ")),但没有一个对我有用。这个问题可能听起来很垃圾,但我是使用 Apache Spark 的新手,我需要一些帮助来克服这个问题。
谁能帮帮我?提前致谢。
【问题讨论】:
标签: apache-spark pyspark