【发布时间】:2018-04-12 20:38:26
【问题描述】:
我在使用 Zeppelin 创建可视化时遇到问题。我有一个包含大约 6 亿条记录的数据集。它存储在 HDFS 集群中,我可以作为 Spark 数据帧加载:
%spark.pyspark
input_hdfs_path = u'hdfs://cluster-master:9000/data/CDR_*.parquet'
df = spark.read.format('parquet').load(input_hdfs_path)
df.registerTempTable("df")
我有兴趣创建关于 CDR 长度的直方图(字段 CDR_LENGTH):
%sql
select ROUND(CDR_LENGTH, -2) as duration, count(*) as count
from df
group by 1
order by 1
我确实在表格选项卡中得到了适当的结果(有两列,duration 和 count),但是当转到条形图选项卡(或任何其他图形选项卡)时,它只是说“没有可用的数据”。你能弄清楚我做错了什么吗?谢谢
【问题讨论】:
标签: apache-spark-sql visualization apache-zeppelin