【发布时间】:2021-12-13 08:34:36
【问题描述】:
我对 pandas 和 python 很陌生,现在面临一个大问题。我有一个数据框,其中包含在特定年份的特定月份为某些客户支付的款项。
| Customer | A | A | B | C |
|---|---|---|---|---|
| Year of payment | 2020 | 2021 | 2021 | 2020 |
| january | NaN | 14 | NaN | NaN |
| february | NaN | 20 | 30 | NaN |
| march | 20 | NaN | 30 | NaN |
| etc | NaN | 5 | 30 | NaN |
有时每个客户(如客户 A)列出几年,有时没有。有时特定年份只有 NaN 值。
我需要了解每位客户的第一笔付款何时完成。结果应该是这样的。
| Customer | A | B | C |
|---|---|---|---|
| first payment | march 2020 | february 2021 | - |
昨天我已经尝试广泛解决这个问题几个小时,但甚至没有接近找到解决方案。如果有人能指出我正确的方向,那就太棒了:)
编辑:以下是数据框的详细信息:
Index(['January__c', 'February__c', 'March__c', 'April__c', 'May__c',
'六月__c','七月__c','八月__c','九月__c','十月__c',
'十一月__c', '十二月__c'],
dtype='对象')
数据列(共12列):
| # | Column | Non-Null Count | Dtype |
|---|---|---|---|
| 0 | January__c | 1810 non-null | float64 |
| 1 | February__c | 2207 non-null | float64 |
| 2 | March__c | 2614 non-null | float64 |
| 3 | April__c | 2991 non-null | float64 |
| 4 | May__c | 3328 non-null | float64 |
| 5 | June__c | 3789 non-null | float64 |
| 6 | July__c | 4208 non-null | float64 |
| 7 | August__c | 4583 non-null | float64 |
| 8 | September__c | 4757 non-null | float64 |
| 9 | October__c | 2515 non-null | float64 |
| 10 | November__c | 1345 non-null | float64 |
| 11 | December__c | 2193 non-null | float64 |
dtypes: float64(12) 内存使用量:879.9+ KB 无
【问题讨论】:
-
print (df.columns)是什么? -
print (df.info())是什么? -
当您的数据采用整洁的数据格式时,您会发现数据分析更容易jeannicholashould.com/tidy-data-in-python.html