1.字段计算
当显示数据时,某些字段必须经过计算,如商品联保时间字段等。想知道产品已联保的时间,就用年份(比如2018)减销售年份,可以知道产品的大概联保年限,此时就需要使用计算字段了。
(1)使用DataFrame增加计算字段。
(2)使用Spark SQL增加计算字段,
2.条件查询
(1)使用DataFrame筛选数据
(2)使用Spark SQL筛选数据
3.数据排序
(1)使用DataFrame进行数据排序
(2)使用Spark SQL进行数据排序
4.数据去重
(1)使用DataFrame进行数据去重
(2)使用Spark SQL进行数据去重
5.数据分组统计
(1)使用DataFrame进行数据分组统计
(2)使用Spark SQL进行数据分组统计
6.数据连接
sale_table有POSTALCODE字段为空的销售记录,因此需连接一个Zipssortedbycitystate表,进而完善销售记录。
(1)加载数据并注册成表
(2)使用DataFrame进行数据连接
(3)使用Spark SQL进行数据连接
7.数据绘图
Pandas是Python的一个数据分析包,Pandas最初作为金融数据分析工具被开发出来,Pandas的名称来自于面板数据(panel data)和Python数据分析(data analysis)。
(1)使用Pandas DataFrames绘图
| 代码 | 说明 |
|---|---|
| import pandas as pd | 导入pandas模块 |
| GroupByState_df.toPandas() | GroupByState_df使用.toPandas()转换为Pandas DataFrame |
| .set_index(‘state’) | 使用set_index设置Pandas DataFrame的索引为state |
| GroupByState_pandas_df | 查看Pandas DataFrame GroupByState_pandas_df |
Matplotlib是一个Python的2D绘图库,它以各种硬复制格式和跨平台的交互式环境生成出版质量级别的图形。通过Matplotlib,开发者只需编写几行代码,便可以生成绘图。
(2)使用Matplotlib绘图
条形图代码解析:
| 代码 | 说明 |
|---|---|
| import matplotlib.pyplot as plt | 导入matplotlib.pyplot模块 |
| % matplotlib inline | 将图形显示在IPython Notebook中 |
ax=GroupByState_pandas_df[‘count’].plot(kind=‘bar’,title=“state”,
figsize=(12,6),legend=True,fontsize=(12)
GroupByState_pandas_df[‘count’] 将图形显示在IPython Notebook中,设置要绘图的是count计算总和字段
kind=‘bar’ 绘图种类是bar chart直方图
title=“state” 图形的标题是state
figsize=(12,6) 设置图形大小
legend=True 设置显示图例
fontsize=(12) 设置字号