【发布时间】:2016-11-07 16:09:34
【问题描述】:
我的问题是以下一个:我需要遍历行进入 RDD,并且对于每一行我需要遍历一个列表。 我的 RDD 是:
rdd1:
[a,b,c,d]
[f,g,j,k]
rddMinHash=ListRDD.map(lambda j: funct(iterating into list of row j))
如何将代码写入funct()?
【问题讨论】:
-
您希望
funct()做什么?您已经尝试过哪些方法? -
lambda j 遍历 rdd1 的每一行,funct() 是一个 minhash 并且必须应用于列表的每个项目。问题是 minHash 不接受列表而只接受一个字符串,所以我必须每次传递一个项目。我尝试使用嵌套的 lambda 函数循环到 rdd 行和内部 lambda 函数循环到列表中,但它不起作用。
-
你的方法似乎是有效的。你能用你写的代码更新问题吗?那我们就可以试着找出里面的bug了。
-
rddMinHash=ListRDD.map(lambda j: lambda x : dist(x[0],x[1]))