【发布时间】:2021-01-17 15:24:14
【问题描述】:
您好,我对 Dask 有点陌生,我正在尝试做以下事情
我有一个 CSV 文件,我正在读取文件,一切正常
import pandas
import os
import json
import math
import numpy as np
import dask
from dask.distributed import Client
import dask.dataframe as df
import dask.multiprocessing
client = Client(n_workers=3, threads_per_worker=4, processes=False, memory_limit='2GB')
df = df.read_csv("netflix_titles.csv")
现在我有功能了
def toupper(x):
return x.upper()
我想将此应用于列现在问题是要将结果保存在同一列中似乎我不能这样做
df["title"].map(toupper).compute()
以下行有效,但我想要
df["title"] = df["title"].map(toupper).compute()
ValueError:并非所有分区都是已知的,无法对齐分区。请使用set_index设置索引。
【问题讨论】:
-
按照惯例,
import dask.dataframe as dd不是as df
标签: dask dask-distributed dask-dataframe