【发布时间】:2018-04-10 08:09:11
【问题描述】:
我有一个大数据框。其中一列是格式为 (mmddyear) 的日期。它必须遵循这种格式。我之间不能有任何虚线(即 mm-dd-year)。
让python从大型数据集中过滤掉所有格式错误的数据的最有效方法是什么?
例如,我有这个数据框:
sales = [('account', ['A11', 'C11', 'A12','B12','A13','B11','C12','C13']),
('date', [1011997, 7202005,2011997,12102001,10012000,11012001,'','110'])
]
df = pd.DataFrame.from_items(sales)
哪些输出:
account date
0 A11 1011997
1 C11 7202005
2 A12 2011997
3 B12 12102001
4 A13 10012000
5 B11 11012001
6 C12
7 C13 110
C12 和 C13 的日期格式错误。
【问题讨论】:
-
过滤它们到底是什么?
-
通过过滤器,我的意思是删除没有写入帐户格式的行。在上述情况下,我想删除最后两行
标签: python pandas sorting date datetime