【发布时间】:2017-12-02 10:04:57
【问题描述】:
我是 IT 领域的新手。我正在尝试使用 python 在 spark shell (pyspark) 上执行简单的功能。该文件采用.txt 格式,其中只有数字。我用这条线上传了它
numbers_rdd = sc.textFile("/users/hadoop/numbers.txt")
我尝试使用
求平均值numbers_rdd.mean()
我相信这是因为我需要将文本文件中的数据从字符串转换为数字,但我不确定。请告知如何进行。
numbers_rdd.take(5) output
【问题讨论】:
-
能否显示numbers_rdd.take(5)的结果
-
我在原帖里上传了
标签: python hadoop apache-spark data-structures pyspark