【发布时间】:2018-12-07 14:43:43
【问题描述】:
我有这个 RDD:
[[u''], [u'E01', u'Lokesh'], [u'E10', u'Venkat'], [u'EO2', u'Bhupesh'], [u'EO3', u'Amit'], [u'EO4', u'Ratan'], [u'EO5', u'Dinesh'], [u'EO6', u'Pavan'], [u'EO7', u'Tejas'], [u'EO8', u'Sheela']]
我想按第二列(名称)排序。我尝试了这个但没有成功:
[u'EO3', u'Amit'],
[u'EO2', u'Bhupesh'],
[u'EO5', u'Dinesh'],
[u'E01', u'Lokesh'],
[u'EO6', u'Pavan'],
[u'EO8', u'Sheela'],
[u'EO7', u'Tejas'],
[u'E10', u'Venkat']
我试试这个:
sorted = employee_rows.sortBy(lambda line: line[1])
但它给了我这个:
IndexError: list index out of range
如何按第二列排序?
谢谢!
【问题讨论】:
标签: sorting apache-spark pyspark rdd