【发布时间】:2021-04-18 07:46:15
【问题描述】:
我正在处理多个大的 .csv 文件,每个文件都有许多不同的变量,将来可能会出现更多。
问题是,pandas 默认推断类型的方式不符合我的需求。 例如,某些行没有值的数值变量最终会被解释为 float64,即使它们本应用作整数。
例如,我希望将 Int64Dtype 优先于 float64,而不必手动制作庞大的 dtypes 字典。
一个肮脏的解决方案是读取 .csv,用我自己的算法检查每个变量以构成我自己的 dtypes 字典,然后用字典重新打开 .csv 或更改每个变量。
我想知道是否有一种简单的方法来使用自定义推断,甚至只是为 dtype 检查设置不同的顺序,但一直找不到。
【问题讨论】:
标签: python pandas casting type-inference