【发布时间】:2022-07-25 21:20:00
【问题描述】:
我正在尝试处理具有 510,000 行和 636 列的数据集。我使用 dask 数据框方法将其加载到数据框中,但无法显示条目。当我尝试获得形状时,会导致延迟。有没有办法让我在不使用 Pyspark 等大数据技术的情况下分析整个数据集?
from dask import dataframe
import requests
import zipfile
import os
import pandas as pd
if os.path.exists('pisa2012.zip') == False:
r = requests.get('https://s3.amazonaws.com/udacity-hosted-downloads/ud507/pisa2012.csv.zip', allow_redirects=True)
open('pisa2012.zip', 'wb').write(r.content)
if os.path.exists('pisa2012.csv') == False:
with zipfile.ZipFile('pisa2012.zip', 'r') as zip_ref:
zip_ref.extractall('./')
df_pisa = dataframe.read_csv('pisa2012.csv')
df_pisa.shape #Output:(Delayed('int-e9d8366d-1b9e-4f8e-a83a-1d4cac510621'), 636)
【问题讨论】:
标签: python-3.x pandas data-science bigdata dask