【发布时间】:2018-11-25 13:55:55
【问题描述】:
你可以说我对使用 Pyspark Python 还很陌生,我的 RDD 设置如下: (ID、名字、姓氏、地址) (ID、名字、姓氏、地址) (ID、名字、姓氏、地址) (ID、名字、姓氏、地址) (ID、名字、姓氏、地址) 无论如何我可以计算我在我的RDD中存储了多少这些记录,例如计算RDD中的所有ID。这样输出会告诉我我有 5 个。 我曾尝试使用 RDD.count() 但这似乎只是返回了我的数据集中总共有多少项目。
【问题讨论】:
-
发布您解决此问题的尝试,即请提供代码。
-
RDD.count() #这并没有返回我想要的
-
不,不止这些。例如,用于计算每条记录的自定义函数。
-
以这个问题为例。你应该以更恰当的方式提出问题。 stackoverflow.com/questions/53153149/…
-
不清楚你需要什么。举个例子