【发布时间】:2015-07-14 10:05:47
【问题描述】:
我想将 pandas.Series 分解为其他几列(列数 = 值数),保存该分解并将其与其他 DataFrame 或 Series 一起使用。像pandas.get_dummies 这样的东西会记住映射并可以处理NaN。
示例。
鉴于以下DataFrame:
A B
0 a 0
1 b 1
2 a 2
3 c 3
我想将系列A分解为:
A_a A_b A_c B
0 1 0 0 0
1 0 1 0 1
2 1 0 0 2
3 0 0 1 3
然后我想保存该分解并将其应用到其他 DataFrame (看看输入在 A 列中没有 c 值):
A B A_a A_b A_c B
0 a 0 0 1 0 0 0
1 a 1 -> 1 1 0 0 1
2 b 2 2 0 1 0 2
这样的事情有什么自动的方法吗?我可以手动完成。
我正在尝试scikit-learn LabelEncoder,但它无法处理NaNs。我想将它用于分类模型。
【问题讨论】:
标签: python pandas machine-learning scikit-learn