【发布时间】:2016-02-19 22:31:27
【问题描述】:
我有一个 json 文件目录,我正在尝试将其转换为 dask DataFrame 并将其保存到 castra。 它们之间有 200 个包含 O(10**7) json 记录的文件。 代码非常简单,主要遵循教程示例。
import dask.dataframe as dd
import dask.bag as db
import json
txt = db.from_filenames('part-*.json')
js = txt.map(json.loads)
df = js.to_dataframe()
cs=df.to_castra("data.castra")
我在 32 核机器上运行它,但代码仅 100% 使用一个核。 我对文档的理解是这段代码是并行执行的。 为什么不是? 我是不是误会了什么?
【问题讨论】:
标签: python concurrency python-multiprocessing dask castra