【发布时间】:2015-08-16 14:02:21
【问题描述】:
我有一个包含 40 个特征的 CSV 数据集,我正在使用 Pandas 处理这些特征。 7 个特征是连续的 (int32),其余的都是分类的。
我的问题是:
我应该使用 Pandas 的dtype('category') 来作为分类特征,还是可以让默认的dtype('object')?
【问题讨论】:
-
没有理由不在这里使用类别。如果字符串很长,也会节省大量空间/内存(您可以检查
info()或memory_usage()btw。dtype 中的 't' 也不大写。
标签: python csv pandas types dataset