【发布时间】:2021-05-07 18:50:42
【问题描述】:
我有一个如下所示的数据框:
| Unit | Charges |
|----------|---------------------------------|
| DW01-100 | trash(15); pest(2) |
| DW01-101 | trash(15); pest(3) |
| DW01-102 | garage(150); trash(15); pest(3) |
| DW01-103 | pest(3); trash(15) |
| DW01-104 | trash(15); pest(3) |
| DW11-407 | trash(15); pest(3); carport(35) |
| DW11-408 | garage(200); trash(15); pest(3) |
| DW11-409 | trash(15); pest(3) |
| DW11-410 | carport(35); trash(15); pest(3) |
| DW11-411 | NaN |
我想计算所有费用,即括号中的数字,然后将它们相加并将它们存储在一个列中。到目前为止,我正在使用正则表达式 findall
df['Charges'] = df['Charges'].str.findall(r"\((.+?)\)")
提取括号中的所有数字。现在我在每个单元格中都有一个数字列表,以文本形式存储。
我被困在下一步,即将每个数字字符串转换为浮点数并对列中每个单元格的浮点数列表求和。 所需的输出应如下所示:
| Unit | Charges | Summed Charges |
|---|---|---|
| DW01-100 | trash(15); pest(2) | 17 |
| DW01-101 | trash(15); pest(3) | 18 |
| DW01-102 | garage(150); trash(15); pest(3) | 168 |
到目前为止,我已经尝试过这样的apply:
def charge_sum(charge_list):
return sum([float(i) for i in charge_list])
df['Summed Charges'] = df['Charges'].apply(charge_sum)
这会返回 TypeError: 'float' object is not iterable。
我在这里做错了什么?我认为apply 将单元格作为参数传递给charge_sum 函数,因此输入应该是单个字符串列表,然后列表理解应该将每个str 转换为float 并返回总和。当我把它添加到调试功能中时:
print(charge_list) 好像打印了整列
['15', '2']
['15', '3']
['150', '15', '3']
['3', '15']
['15', '3']
['3', '15']
['15']
['15', '3']
['15', '3', '-101.75', '150']
['15', '3', '-88.4']
['15', '3', '-88']
['15', '3', '-89']
['3', '15']
['15', '3', '150']
['15', '2']
['15', '3']
nan
而不仅仅是在出错之前打印第一行 ['15', '2']。为什么将整个列一次传递给 apply 函数,而不是单个单元格?
另外,如果单元格包含nan,如何避免应用该函数?我想我可以fillna(0),但是有更好的方法吗?
【问题讨论】:
标签: python pandas dataframe data-wrangling