【发布时间】:2017-10-03 04:35:48
【问题描述】:
我已将一个包含 15 列和 100,000 多行的 csv 文件导入到数据框中。其中一列是“出生”,表示出生年份。在“birth”列中,实际上有 3 种不同的字符串类型格式,以“02-Aug-34”格式列出日期的格式,以“29DEC1899”格式列出日期的格式,最后是空白字符串格式“”。
我编写了一个脚本,可以对“出生”字符串的类型进行排序,然后将非空白字符串转换为给定日期的日期时间格式。我使用一个循环来遍历带有行号的适当列表,以将数据框“出生”条目从字符串替换为日期时间,基本上覆盖了以前的值。
浏览 100,000 多个条目大约需要 130 秒。考虑到输入值的 3 种不同可能情况,是否有更有效的方法转换数据类型?这个完成时间(130 秒)合理吗?
我对使用 pandas 很陌生。
【问题讨论】:
-
可能
02-Aug-15有时是2015有时是1915吗? -
@jezrael 不,日期都在 2000 年之前。
标签: python pandas type-conversion