【问题标题】:How do I count how many items are in a specific row in my RDD如何计算我的 RDD 中特定行中有多少项目
【发布时间】:2018-11-25 13:55:55
【问题描述】:

你可以说我对使用 Pyspark Python 还很陌生,我的 RDD 设置如下: (ID、名字、姓氏、地址) (ID、名字、姓氏、地址) (ID、名字、姓氏、地址) (ID、名字、姓氏、地址) (ID、名字、姓氏、地址) 无论如何我可以计算我在我的RDD中存储了多少这些记录,例如计算RDD中的所有ID。这样输出会告诉我我有 5 个。 我曾尝试使用 RDD.count() 但这似乎只是返回了我的数据集中总共有多少项目。

【问题讨论】:

  • 发布您解决此问题的尝试,即请提供代码。
  • RDD.count() #这并没有返回我想要的
  • 不,不止这些。例如,用于计算每条记录的自定义函数。
  • 以这个问题为例。你应该以更恰当的方式提出问题。 stackoverflow.com/questions/53153149/…
  • 不清楚你需要什么。举个例子

标签: python scala pyspark


【解决方案1】:

如果您有像 RDD[(ID, First name, Last name, Address)] 这样的元组 RDD,那么您可以执行以下操作来进行不同类型的计数。

  1. 计算 RDD 中元素/行的总数。

    rdd.count()

  2. 从您的上述 RDD 中计算不同的 ID。选择 ID 元素,然后在它上面做一个 distinct。

    rdd.map(lambda x : x[0]).distinct().count()

希望它有助于进行不同类型的计数。

如果您需要任何进一步的帮助,请告诉我。

问候,

尼拉杰

【讨论】:

    猜你喜欢
    • 2019-10-02
    • 1970-01-01
    • 2015-02-11
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-08-21
    相关资源
    最近更新 更多