【发布时间】:2017-09-18 23:38:45
【问题描述】:
我是 PySpark 的新手,我有一个从 this link 获得的 AskReddit json 文件。我正在尝试创建一个 RDD,然后我希望执行诸如地图和平面地图之类的操作。有人建议我以 jsonlines 格式获取 json,但尽管使用 pip 安装 jsonlines,但我无法在 PySpark 笔记本中导入包。以下是我尝试在 json 中阅读的内容。
In [10]: import json
data = json.load(open("AskReddit.json", "r"))
jsonrdd = sc.parallelize(data)
jsonrdd.take(5)
Out[11]: [u'kind', u'data']
我还尝试执行以下操作,在执行 jsonrdd.take(1) 之后,它会为我提供 json 文件的全部内容。
In [6]: jsonrdd = sc.wholeTextFiles("*.json")
jsonrdd.take(1)
但是,我想将每个 json 对象作为 rdd 中的一行。我该怎么办?
【问题讨论】: