【发布时间】:2020-01-28 04:05:14
【问题描述】:
我目前正在尝试使用带有 python 3.7.3 的 pyspark 解释器在 zeppelin (0.8.1) 笔记本中生成可视化。
使用 seaborn (0.9.0) 生成以下简单图大约需要 5 分钟(整个过程中 CPU 使用率非常高):
%pyspark
import seaborn as sns
import numpy as np
import pandas as pd
data = pd.DataFrame(np.random.rand(100,3))
sns.pairplot(data)
这种行为是相当不一致的,因为以下(更多数据密集型)图会立即呈现
%pyspark
import seaborn as sns
import numpy as np
import pandas as pd
df = pd.DataFrame(data = np.random.rand(10000,2))
sns.lineplot(x = 0, y = 1, data = df)
我注意到,对于 jupyter notebook 环境,使用 matplotlib (3.1.0) 通常要快得多,而且几乎和我习惯使用的一样快。
我已经阅读了有关问题 ZEPPELIN-1894 的信息,但我也可以立即渲染提到的散点图。
【问题讨论】:
标签: matplotlib seaborn apache-zeppelin