Pandas基本用法

Pandas 数据结构

Series 是一种一维数组，和 NumPy 里的数组很相似。事实上，Series 基本上就是基于 NumPy 的数组对象来的。和 NumPy 的数组不同，Series 能为数据自定义标签，也就是索引（index），然后通过索引来访问数组中的数据。

创建一个 Series 的基本语法如下：

Pandas基本用法

上面的 data 参数可以是任意数据对象，比如字典、列表甚至是 NumPy 数组，而index 参数则是对 data 的索引值，类似字典的 key。index 参数是可省略的，你可以选择不输入这个参数。如果不带 index 参数，Pandas 会自动用默认 index 进行索引，类似数组，索引值是 [0, ..., len(data) - 1]

Pandas基本用法

从 Python 字典对象创建 Series：如果你从一个 Python 字典对象创建 Series，Pandas 会自动把字典的键值设置成 Series 的 index，并将对应的 values 放在和索引对应的 data 里

Pandas基本用法

从 Series 里获取数据

访问 Series 里的数据的方式，和 Python 字典基本一样：

对 Series 进行算术运算操作

对 Series 的算术运算都是基于 index 进行的。我们可以用加减乘除（+ - * /）这样的运算符对两个 Series 进行运算，Pandas 将会根据索引 index，对响应的数据进行计算，结果将会以浮点数的形式存储，以避免丢失精度。如果 Pandas 在两个 Series 里找不到相同的 index，对应的位置就返回一个空值 NaN。

Pandas基本用法

DataFrames

Pandas 的 DataFrame（数据表）是一种 2 维数据结构，数据以表格的形式存储，分成若干行和列。通过 DataFrame，你能很方便地处理数据。常见的操作比如选取、替换行或列的数据，还能重组数据表、修改索引、多重筛选等。

我们基本上可以把 DataFrame 理解成一组采用同样索引的 Series 的集合。

Series 来构建一个DataFrame：

Pandas基本用法

字典来创建 DataFrame：

Pandas基本用法

获取 DataFrame 中的列

要获取一列的数据，还是用中括号 [] 的方式，跟 Series 类似。比如尝试获取上面这个表中的 name 列数据：