【发布时间】:2017-08-20 21:16:33
【问题描述】:
pandas.read_csv()这些关于日期时间解析的问题都有关系。
问题 1
infer_datetime_format 参数默认为 False。将其设置为 True 是否安全?换句话说,Pandas 推断日期格式的准确度如何?对其算法的任何见解都会有所帮助。
问题 2
当我运行 pd.read_csv("file.csv", parse_dates = ["Start", "End"]) 时,加载超过 450,000 行的 CSV 文件花费了 10 多分钟
然而,当我添加参数dayfirst = True 和infer_datetime_format = True 时只用了20 秒。然而,如果其中一个为 False,则需要 10 多分钟。
为什么 both 必须为 True 才能加快日期时间解析?如果一个是 False 而另一个不是,那么它不应该严格在 20 秒到 10 分钟之间吗? (这个问题的答案很可能是算法,如问题1。)
问题 3
既然dayfirst = True, infer_datetime_format = True加速了datetime解析,为什么不是默认设置呢?是因为 Pandas 无法准确推断日期格式吗?
【问题讨论】:
-
你能展示一些时间来证明这些差异吗?
标签: python performance csv pandas datetime