【发布时间】:2019-04-05 08:21:23
【问题描述】:
我目前仍处于了解机器学习的早期阶段(我是一名试图提升技能的网络程序员)并且遇到了基于 Kaggle 提供的数据集的问题。
这是一个数据集,其中每个特征都包含 1..n 个标签,描述了一顿饭的成分,以及这顿饭来自哪道菜的目标字段。
Ingredients {ArrayOf<string>} | Cuisine {string}
[Tomato, Spaghetti, Beef, Basil, Oregano] | Italian
[Coriander Seeds, Cumin, Paprika, Chicken, Garlic, Ginger] | Indian
[Beef, Onion] | French
此数据经过程式化以说明如何描述数据的要点,食材是我的输入,美食是我的目标输出。
我想知道的是我的方法背后是否有正确的理论
- 在预处理中遍历数据帧的每个特征
- 获取所有成分并将它们添加到集合中
- 为每种成分添加一个新列到以该成分命名的数据框中
- 遍历每个特征并根据每种成分将后续列设置为 1 或 0(即将“牛肉”列设置为 1)
- 根据转换后的数据集训练模型
虽然目前这可能有效,但它可能无法扩展,因为我目前拥有 10,000 种独特的成分,并且将来会体验到更多。
我的想法是否正确,我是否应该考虑将来扩展功能?是否有任何内置功能支持我正在尝试做的事情?
【问题讨论】:
-
你能给出一个你想要的输出示例吗?
-
配料是输入,菜品是我的输出。我希望使用一系列成分来预测美食。干杯!
标签: python pandas machine-learning categorical-data conceptual