【发布时间】:2019-02-23 02:49:23
【问题描述】:
我有一个包含以下值的 rdd。
rdd_2 = sc.parallelize([('f3.txt', 'of', 0.0),
('f3.txt',
'no',
0.00023241396735284342),
('f3.txt',
'may',
0.00042318717429693387),
('f3.txt',
'love',
0.00036660747046705975),
('f3.txt',
'romantic',
0.00022935755451437367)])
我希望使用 lambda 函数通过单词 ('romantic', 'love') 过滤这个 RDD,这样我的结果输出是:
([('f3.txt', 'of', 0),
('f3.txt',
'no',
0),
('f3.txt',
'may',
0),
('f3.txt',
'love',
1),
('f3.txt',
'romantic',
1)])
我尝试了以下代码,但出现错误:
querylist = ['romantic', 'love']
q = rdd_2.map(lambda x : x[2]=1 if x[1] not in querylist else x[2]=0)
SyntaxError: invalid syntax
我该怎么办?
【问题讨论】: