在 Pandas (Python) 中处理数据框答案

【问题标题】：Wrangling a data frame in Pandas (Python)在 Pandas (Python) 中处理数据框
【发布时间】：2017-02-17 13:05:02
【问题描述】：

我在 csv 文件中有以下数据：

from StringIO import StringIO
import pandas as pd

the_data = """
ABC,2016-6-9 0:00,95,{'//Purple': [115L], '//Yellow': [403L], '//Blue': [16L], '//White-XYZ': [0L]}
ABC,2016-6-10 0:00,0,{'//Purple': [219L], '//Yellow': [381L], '//Blue': [90L], '//White-XYZ': [0L]}
ABC,2016-6-11 0:00,0,{'//Purple': [817L], '//Yellow': [21L], '//Blue': [31L], '//White-XYZ': [0L]}
ABC,2016-6-12 0:00,0,{'//Purple': [80L], '//Yellow': [2011L], '//Blue': [8888L], '//White-XYZ': [0L]}
ABC,2016-6-13 0:00,0,{'//Purple': [32L], '//Yellow': [15L], '//Blue': [4L], '//White-XYZ': [0L]}
DEF,2016-6-16 0:00,0,{'//Purple': [32L], '//Black': [15L], '//Pink': [4L], '//NPO-Green': [3L]}
DEF,2016-6-17 0:00,0,{'//Purple': [32L], '//Black': [15L], '//Pink': [4L], '//NPO-Green': [0L]}
DEF,2016-6-18 0:00,0,{'//Purple': [32L], '//Black': [15L], '//Pink': [4L], '//NPO-Green': [7L]}
DEF,2016-6-19 0:00,0,{'//Purple': [32L], '//Black': [15L], '//Pink': [4L], '//NPO-Green': [14L]}
DEF,2016-6-20 0:00,0,{'//Purple': [32L], '//Black': [15L], '//Pink': [4L], '//NPO-Green': [21L]}
"""

我将数据读入一个Pandas数据框，如下：

df = pd.read_csv(StringIO(the_data), sep=',', header=None)

“公司”和“日期”字段永远不会改变。

但是，花括号内的“键”（例如"//PurpleCar"、"//YellowCar"、"//BlueCar"、"//WhiteCar"、"//BlackCar"、"//BlackCar"和"NPO-GreenCar"）是不是静态的。它们可以（也将）经常变化。

（注意：我有另一个脚本输出字典并“创建”这个文本文件，因此这个数据结构）

我想让数据框显示如下，以便我可以使用 Matplotlib 创建可视化：

   Company  Date       Purple   Yellow   Blue    White-XYZ   Black  Pink   NPO-Green  

0  ABC     2016-6-9    115      403      16      0            0     0      0
1  ABC     2016-6-10   219      381      90      0            0     0      0
2  ABC     2016-6-11   817      21       31      0            0     0      0
3  ABC     2016-6-12   80       2011     8888    0            0     0      0
4  ABC     2016-6-13   32       15       4       0            0     0      0
5  DEF     2016-6-16   32       0        0       0            15    4      3
6  DEF     2016-6-17   32       0        0       0            15    4      0
7  DEF     2016-6-18   32       0        0       0            15    4      7
8  DEF     2016-6-19   32       0        0       0            15    4      14
9  DEF     2016-6-20   32       0        0       0            15    4      21

我面临的问题是：

a) 将“键”值向上移动到列标题

b) 允许“键”值是动态的（同样，它们可以并且将会改变）

c) 删除方括号（'[' 和 ']'）

d) 删除双斜杠 ('//')

e) 去掉数值后面的“L”

上面的“c”、“d”和“e”点可以通过以下问题（相关）来解决：

How to remove curly braces, apostrophes and square brackets from dictionaries in a Pandas dataframe (Python)

我正在努力解决的是“a”和“b”点。

有人知道解决这些问题的方法吗？

谢谢！

* 更新 *

最初发布的数据有一个小错误。这是数据：

the_data = """
ABC,2016-6-9 0:00,95,"{'//Purple': [115L], '//Yellow': [403L], '//Blue': [16L], '//White-XYZ': [0L]}"
ABC,2016-6-10 0:00,0,"{'//Purple': [219L], '//Yellow': [381L], '//Blue': [90L], '//White-XYZ': [0L]}"
ABC,2016-6-11 0:00,0,"{'//Purple': [817L], '//Yellow': [21L], '//Blue': [31L], '//White-XYZ': [0L]}"
ABC,2016-6-12 0:00,0,"{'//Purple': [80L], '//Yellow': [2011L], '//Blue': [8888L], '//White-XYZ': [0L]}"
ABC,2016-6-13 0:00,0,"{'//Purple': [32L], '//Yellow': [15L], '//Blue': [4L], '//White-XYZ': [0L]}"
DEF,2016-6-16 0:00,0,"{'//Purple': [32L], '//Black': [15L], '//Pink': [4L], '//NPO-Green': [3L]}"
DEF,2016-6-17 0:00,0,"{'//Purple': [32L], '//Black': [15L], '//Pink': [4L], '//NPO-Green': [0L]}"
DEF,2016-6-18 0:00,0,"{'//Purple': [32L], '//Black': [15L], '//Pink': [4L], '//NPO-Green': [7L]}"
DEF,2016-6-19 0:00,0,"{'//Purple': [32L], '//Black': [15L], '//Pink': [4L], '//NPO-Green': [14L]}"
DEF,2016-6-20 0:00,0,"{'//Purple': [32L], '//Black': [15L], '//Pink': [4L], '//NPO-Green': [21L]}"
"""

此数据与原始数据的区别在于左大括号 ("{") 之前和右大括号 ("}") 之后的撇号 (")。

【问题讨论】：

我已在您的另一个问题中提交了答案：stackoverflow.com/a/39936698/218508

标签： python regex pandas

【解决方案1】：

我真的不认为这只熊猫在这里能为你做很多事情。您的数据非常迟钝，在我看来最好使用正则表达式来处理。这是我的解决方案：

import re

static_cols = []
dynamic_cols = []
for line in the_data.splitlines():
    if line == '':
        continue

    # deal with static columns
    x = line.split(',')
    company, date, other = x[0:3]
    keys = ['Company', 'Date', 'Other']
    values = [company, date, other]
    d = {i: j for i, j in zip(keys, values)}
    static_cols.append(d)

    # deal with dynamic columns
    keys = re.findall(r'(?<=//)[^\']*', line)
    values = re.findall(r'\d+(?=L)', line)
    d = {i: j for i, j in zip(keys, values)}
    dynamic_cols.append(d)

df1 = pd.DataFrame(static_cols)
df2 = pd.DataFrame(dynamic_cols)
df = pd.concat([df1, df2], axis=1)

然后输出：

此外，您的数据在我不确定如何处理的日期之后有一个额外的列，因此我将其称为“其他”。它未包含在您的输出中，因此您也可以根据需要轻松删除它。

【讨论】：

您的解决方案完美运行（谢谢！！）。我看到的唯一问题是它只返回“L”的紧靠左侧的数字（而不是返回完整的数字，它可以是一个数值任何长度）。有没有办法来解决这个问题？谢谢！！
是的，看起来我只是在正则表达式上犯了一个简单的错误。修复它并更新了输出，它现在可以正常工作了。
是的，我发现正则表达式必须稍作更改才能在 测试数据 上工作（它做得很好）。但是，当我在 实际 csv 文件 上运行它时，我得到的错误是：AttributeError: '_csv.reader' object has no attribute 'splitlines'。知道如何解决这个问题吗？谢谢！
听起来您可能已经有了一个列表。 splitlines 是一种字符串方法。请参阅此post 了解更多信息。

【解决方案2】：

考虑使用 ast.literal_eval() 将字典列值转换为 Python 字典，然后将它们转换为单独的数据帧，以便最终与原始数据帧合并：

from io import StringIO
import pandas as pd

import ast
...

df = pd.read_csv(StringIO(the_data), header=None, 
                 names=['Company', 'Date', 'Value', 'Dicts'])

dfList = []
for i in df['Dicts'].tolist():
    result = ast.literal_eval(i.replace('L]', ']'))            
    result = {k.replace('//',''):v for k,v in result.items()}
    temp = pd.DataFrame(result)
    dfList.append(temp)

dictdf = pd.concat(dfList).reset_index(drop=True)
df = pd.merge(df, dictdf, left_index=True, right_index=True).drop(['Dicts'], axis=1)
print(df)

#   Company            Date  Value  Black    Blue  NPO-Green  Pink  Purple  White-XYZ  Yellow
# 0     ABC   2016-6-9 0:00     95    NaN    16.0        NaN   NaN     115        0.0   403.0
# 1     ABC  2016-6-10 0:00      0    NaN    90.0        NaN   NaN     219        0.0   381.0
# 2     ABC  2016-6-11 0:00      0    NaN    31.0        NaN   NaN     817        0.0    21.0
# 3     ABC  2016-6-12 0:00      0    NaN  8888.0        NaN   NaN      80        0.0  2011.0
# 4     ABC  2016-6-13 0:00      0    NaN     4.0        NaN   NaN      32        0.0    15.0
# 5     DEF  2016-6-16 0:00      0   15.0     NaN        3.0   4.0      32        NaN     NaN
# 6     DEF  2016-6-17 0:00      0   15.0     NaN        0.0   4.0      32        NaN     NaN
# 7     DEF  2016-6-18 0:00      0   15.0     NaN        7.0   4.0      32        NaN     NaN
# 8     DEF  2016-6-19 0:00      0   15.0     NaN       14.0   4.0      32        NaN     NaN
# 9     DEF  2016-6-20 0:00      0   15.0     NaN       21.0   4.0      32        NaN     NaN

【讨论】：