【发布时间】:2019-04-27 22:00:42
【问题描述】:
这可能是一个基本问题,我有一个分类数据,我想将其输入到我的机器学习模型中。我的 ML 模型只接受数字数据。将此分类数据转换为数值数据的正确方法是什么。
我的示例 DF:
T-size Gender Label
0 L M 1
1 L M 1
2 M F 1
3 S F 0
4 M M 1
5 L M 0
6 S F 1
7 S F 0
8 M M 1
我知道以下代码将我的分类数据转换为数字
类型 1:
df['T-size'] = df['T-size'].cat.codes
以上行只是将类别从 0 转换为 N-1。它不遵循它们之间的任何关系。
对于这个例子,我知道 S
类型 2:
在这种类型中我没有M和F之间的关系。但我可以看出M的概率比F的概率大。即,样本为 1 / 样本总数
男性,
(4/5)
对于女性,
(2/4)
WKT,
(4/5) > (2/4)
我应该如何替换这种列?
对于这个问题,我可以用 (4/5) 替换 M 和用 (2/4) 替换 F 吗?
处理列的正确方法是什么?
帮助我更好地理解这一点。
【问题讨论】:
标签: python pandas dataframe machine-learning feature-selection