【发布时间】:2018-06-16 11:55:08
【问题描述】:
我是新来的,我没有在其他问题中看到我在寻找什么。这很简单,我知道如何在数据框中执行操作,但在 RDD 中不知道。我有一个 RDD,当然我想要一个新的 RDD 只替换一个属性(不是文件中的所有属性)。该属性是字符串,必须是整数。问题是如何将“M”更改为 1,将“F”更改为 0。例如,数据为:
...
StructField("UserID", IntegerType(), True),
StructField("Gender", StringType(), True)
...
print(Users_Rdd)
[u'1::F', u'2::M', u'3::M', u'4::M', u'5::M']
我需要:
print(new_Users_Rdd)
[u'1::0', u'2::1', u'3::0', u'4::1', u'5::1']
谢谢!!
【问题讨论】:
-
python 方法与 scala 有点不同,但并非不可克服
标签: python apache-spark rdd