【发布时间】:2023-03-03 21:48:02
【问题描述】:
我正在尝试预测用户给餐厅的分数。
我拥有的data 可以分为两个数据框
- 关于用户的数据(品味、个人特征、家庭……)
- 关于餐厅的数据(营业时间、位置、美食……)。
第一个主要问题是:我该如何处理?
我已经尝试使用用户数据框进行基本预测(使用 RandomForest 预测一列,其他列很少),这非常简单。这些数据框在逻辑上是不同的,我无法将它们合并为一个。
进行这样的预测时,最好的方法是什么?
我的第二个问题是处理分类数据(美食 f.e.)的最佳方式是什么?
我知道我可以创建一个映射函数并将每个值转换为索引,或者我可以使用 pandas 中的 Categorical(可能还有其他几种方法)。有什么首选的方法吗?
【问题讨论】:
-
这不是一个真正的
pandas问题,而是一个方法问题:机器学习。我想说datascience.stackexchange.com 或stats.stackexchange.com 是问这个问题的更好地方。
标签: python python-3.x pandas scikit-learn