【问题标题】:How to hot encode a dataframe column with multiple strings?如何对具有多个字符串的数据框列进行热编码?
【发布时间】:2019-12-03 15:51:50
【问题描述】:

我目前正在构建一个回归模型来预测送餐时间。

这是有一些观察的数据框

如果您观察到“美食”列有很多字符串。使用代码

pd.get_dummies(data.Cuisines.str.split(',',expand=True),prefix='c')

这帮助我拆分字符串和热编码,但是,有一个新问题需要处理。

合并了数据框和假人。快餐出现在第 1 行和第 3 行。预期输出是第一行和第三行值为 1 的单个快餐列,但是,创建了两个快餐列。为第一行创建快餐(第 4 列),为第三行创建快餐(第 15 列)。

谁能帮我解决这个问题,帮助我获得一个快餐列,第一行和第三行的值为 1,其他菜系也是如此。

【问题讨论】:

  • 还是一样。此代码再次创建了两个不同的快餐列。

标签: python string pandas dataframe


【解决方案1】:

两个Fast Food 的区别在于尾随空格。您可能想尝试一下:

data.Cuisines.str.get_dummies(',\s*')

【讨论】:

    猜你喜欢
    • 2019-10-07
    • 1970-01-01
    • 2020-12-27
    • 2017-06-08
    • 2021-11-16
    • 2018-05-26
    • 2020-10-06
    • 1970-01-01
    相关资源
    最近更新 更多