【发布时间】:2016-03-06 19:36:55
【问题描述】:
我刚开始使用 Spark。我尝试遵循this 教程(我使用 Python)。
作为前两句话,我看到以下内容:
Spark 的主要抽象是项目的分布式集合 称为弹性分布式数据集(RDD)。 RDDs 可以从 Hadoop InputFormats(例如 HDFS 文件)或通过转换其他 RDD。让我们从 README 文件的文本中创建一个新的 RDD Spark源码目录
据我正确理解,Spark 可以“访问”分布在属于运行 Spark 的集群的不同机器上的项目。这些项目可以被想象为文件(或至少作为可以从文件中获得的东西)。特别是,通过执行以下操作:
textFile = sc.textFile("test.txt")
我们使用“test.txt”文件创建一个新的“项目”并将其添加到 Spark 可见(可访问)的项目集合中。
我做对了吗。如果是这样,我如何才能看到 Spark 可用的所有“项目”。特别是,我如何才能看到那里有一个新创建的项目。
添加
其中一位用户不清楚我的意思。所以,我试着澄清一下。在本教程中,提到了“分布式项目集合”。所以,有一些“项目”。可以看到存在哪些项目吗?或者至少存在多少项目?我可以在 PySpark 会话中输入一些内容来获取一些现有的“项目”吗?
我对术语也有疑问。是一组项目称为RDD还是集合中的每个元素(项目)称为RDD(我指的句子在这方面是模棱两可的)。通过执行sc.textFile,我们创建了一个新的 RDD。那么,我们在项目集合中添加了一个项目?我们能否看到集合中的项目(或至少是集合中的项目数)。
增加了 2 个
看起来我的意思还不清楚。我不明白有什么不清楚的。也许那些我的问题不清楚的人可以详细说明究竟什么是不清楚的。
但无论如何,我会尝试更多。
Spark 的主要抽象是项目的分布式集合 称为弹性分布式数据集 (RDD)。
如果有一个项目集合,那么应该有一种方法可以获取有关此“项目集合”的一些信息。例如,很自然地假设项目集合可以通过集合中的项目数量来表征。我可以得到这个号码吗?
【问题讨论】:
-
我不是您在更新中提到的“同一用户”,但仍然不清楚。
-
wholeTextFiles返回内容和文件名,如果这是你想要的。 -
RDD 和其他对象一样只是一个对象。它没有特殊含义。
-
@zero323,但是我们能数出这些物体吗?
标签: python apache-spark