【发布时间】:2020-03-08 07:35:36
【问题描述】:
在我的数据集中,我有两个分类列,我想计算它们。这两列都包含国家,有些重叠(出现在两列中)。我想在 column1 和 column2 中为同一个国家/地区提供相同的数字。
我的数据看起来有点像:
import pandas as pd
d = {'col1': ['NL', 'BE', 'FR', 'BE'], 'col2': ['BE', 'NL', 'ES', 'ES']}
df = pd.DataFrame(data=d)
df
目前我正在转换数据,例如:
from sklearn.preprocessing import LabelEncoder
df.apply(LabelEncoder().fit_transform)
然而,这并没有区分 FR 和 ES。是否有另一种简单的方法可以得出以下输出?
o = {'col1': [2,0,1,0], 'col2': [0,2,4,4]}
output = pd.DataFrame(data=o)
output
【问题讨论】:
标签: python python-3.x pandas scikit-learn categorical-data