【发布时间】:2015-10-29 04:41:21
【问题描述】:
我有一个包含多个字符串值的 Pandas DataFrame。 我想用整数值替换它们以计算相似度。 例如:
stores[['CNPJ_Store_Code','region','total_facings']].head()
Out[24]:
CNPJ_Store_Code region total_facings
1 93209765046613 Geo RS/SC 1.471690
16 93209765046290 Geo RS/SC 1.385636
19 93209765044084 Geo PR/SPI 0.217054
21 93209765044831 Geo RS/SC 0.804633
23 93209765045218 Geo PR/SPI 0.708165
我想替换 region == 'Geo RS/SC' ==> 1, region == 'Geo PR/SPI'==> 2 等等。
澄清:我想自动进行替换,而无需先创建字典,因为我事先不知道我的区域将是什么。 有任何想法吗?我正在尝试使用 DictVectorizer,但没有成功。
我确信有一种方法可以智能地做到这一点,但我就是找不到。
任何熟悉解决方案的人?
【问题讨论】:
-
使用分类数据类型能解决您的问题吗? pandas-docs.github.io/pandas-docs-travis/categorical.html
-
我通过使用 sklearn 中的 LabelEncoder() 解决了这个问题。 scikit-learn.org/stable/modules/generated/…
标签: python pandas dataframe cosine-similarity