【发布时间】:2018-12-06 00:50:34
【问题描述】:
我有一个大型数据集,需要读入 pandas 数据框。
它包含很多分类数据,由一些相当长的字符串组成。
尝试使用 pandas read_sql_query 方法我似乎无法指定应将哪些列视为分类数据。
这意味着我遇到了内存问题。
我有 R 的背景,我可以指定诸如字符串作为因子之类的东西。这意味着您可以拥有内存占用很小的长字符串,因为它们在 R 中被索引为整数。我不能在 Python/Pandas 中做同样的事情吗?
当我从数据库中读取数据时,我想这样做!不是之后。将字符串转换为 Pandas 中的类别很容易,一旦你将它放在数据框中,但这不是我想要的。
我知道我可以简单地对数据库中的数据进行编码,但我想避免这种情况。
【问题讨论】:
标签: python database pandas categorical-data