【发布时间】:2016-09-30 23:03:54
【问题描述】:
我想分析 excel 文件并找出数据范围(最小值、最大值、最小长度、最大长度、空白等)我想创建一个新的分析文件来吐出这些见解。我正在研究panda 库可以做到这一点。
df = pd.read_excel(open('file.xlsx','rb'), sheetname='TestData')
我应该如何进行?
【问题讨论】:
我想分析 excel 文件并找出数据范围(最小值、最大值、最小长度、最大长度、空白等)我想创建一个新的分析文件来吐出这些见解。我正在研究panda 库可以做到这一点。
df = pd.read_excel(open('file.xlsx','rb'), sheetname='TestData')
我应该如何进行?
【问题讨论】:
使用 numpy 获取最小值/最大值等。不过,这些函数需要 numpy 数组,因此要么对数据帧的每一列进行切片,要么将数据帧转换为矩阵
https://docs.scipy.org/doc/numpy/reference/generated/numpy.argmax.html
【讨论】:
您可以找到一些您正在寻找的统计数据 - 最小值、最大值、平均值(平均值)、标准值。使用describe() 方法的数值列的偏差
演示:
df = pd.read_excel(r'/path/to/file.xlsx')
In [35]: df
Out[35]:
a b c txt
0 8 5 2 dd
1 6 6 2 aa
2 3 7 9 cc
3 4 2 3 dd
4 3 3 5 cc
In [36]: df.describe()
Out[36]:
a b c
count 5.000000 5.000000 5.000000
mean 4.800000 4.600000 4.200000
std 2.167948 2.073644 2.949576
min 3.000000 2.000000 2.000000
25% 3.000000 3.000000 2.000000
50% 4.000000 5.000000 3.000000
75% 6.000000 6.000000 5.000000
max 8.000000 7.000000 9.000000
【讨论】: