- 需求:
- 导入文件,查看原始数据
- 将人口数据和各州简称数据进行合并
- 将合并的数据中重复的abbreviation列进行删除
- 查看存在缺失数据的列
- 找到有哪些state/region使得state的值为NaN,进行去重操作
- 为找到的这些state/region的state项补上正确的值,从而去除掉state这一列的所有NaN
- 合并各州面积数据areas
- 我们会发现area(sq.mi)这一列有缺失数据,找出是哪些行
- 去除含有缺失数据的行
- 找出2010年的全民人口数据
- 计算各州的人口密度
- 排序,并找出人口密度最高的五个州 df.sort_values()
In [1]:
import numpy as np
from pandas import DataFrame,Series
import pandas as pd
In [3]:
abb = pd.read_csv(\'./data/state-abbrevs.csv\')
pop = pd.read_csv(\'./data/state-population.csv\')
area = pd.read_csv(\'./data/state-areas.csv\')
In [8]:
#将人口数据和各州简称数据进行合并
display(abb.head(1),pop.head(1))
abb_pop = pd.merge(abb,pop,left_on=\'abbreviation\',right_on=\'state/region\',how=\'outer\')
abb_pop.head()
Out[8]:
In [9]:
#将合并的数据中重复的abbreviation列进行删除
abb_pop.drop(labels=\'abbreviation\',axis=1,inplace=True)
abb_pop.head()
Out[9]:
In [10]:
#查看存在缺失数据的列
abb_pop.isnull().any(axis=0)
Out[10]:
In [11]:
#找到有哪些state/region使得state的值为NaN,进行去重操作
In [13]:
#1.检测state列中的空值
abb_pop[\'state\'].isnull()
Out[13]:
In [15]:
#2.将1的返回值作用的state_region这一列中
abb_pop[\'state/region\'][abb_pop[\'state\'].isnull()]
Out[15]:
In [29]:
#3.去重
abb_pop[\'state/region\'][abb_pop[\'state\'].isnull()].unique()
Out[29]:
In [19]:
#为找到的这些state/region的state项补上正确的值,从而去除掉state这一列的所有NaN
abb_pop[\'state/region\'] == \'USA\'
Out[19]:
In [23]:
indexs = abb_pop[\'state\'][abb_pop[\'state/region\'] == \'USA\'].index
In [24]:
abb_pop.loc[indexs,\'state\'] = \'United State\'
In [27]:
pr_index = abb_pop[\'state\'][abb_pop[\'state/region\'] == \'PR\'].index
In [28]:
abb_pop.loc[pr_index,\'state\'] = \'PPPRRR\'
合并各州面积数据areas 我们会发现area(sq.mi)这一列有缺失数据,找出是哪些行 去除含有缺失数据的行 找出2010年的全民人口数据 计算各州的人口密度 排序,并找出人口密度最高的五个州 df.sort_values()
In [31]:
#合并各州面积数据areas
abb_pop_area = pd.merge(abb_pop,area,how=\'outer\')
abb_pop_area.head()
Out[31]:
In [32]:
#我们会发现area(sq.mi)这一列有缺失数据,找出是哪些行
abb_pop_area[\'area (sq. mi)\'].isnull()
Out[32]:
In [35]:
a_index = abb_pop_area.loc[abb_pop_area[\'area (sq. mi)\'].isnull()].index
In [36]:
#去除含有缺失数据的行
abb_pop_area.drop(labels=a_index,axis=0,inplace=True)
In [38]:
#找出2010年的全民人口数据
abb_pop_area.query(\'year == 2010 & ages == "total"\')
Out[38]:
In [40]:
#计算各州的人口密度
abb_pop_area[\'midu\'] = abb_pop_area[\'population\'] / abb_pop_area[\'area (sq. mi)\']
abb_pop_area.head()
Out[40]:
In [43]:
#排序,并找出人口密度最高的五个州 df.sort_values()
abb_pop_area.sort_values(by=\'midu\',axis=0,ascending=False).head()
Out[43]: