基于更多数据帧的预测答案

【问题标题】：Prediction based on more dataframes基于更多数据帧的预测
【发布时间】：2023-03-03 21:48:02
【问题描述】：

我正在尝试预测用户给餐厅的分数。

我拥有的data 可以分为两个数据框

第一个主要问题是：我该如何处理？

我已经尝试使用用户数据框进行基本预测（使用 RandomForest 预测一列，其他列很少），这非常简单。这些数据框在逻辑上是不同的，我无法将它们合并为一个。

我的第二个问题是处理分类数据（美食 f.e.）的最佳方式是什么？

我知道我可以创建一个映射函数并将每个值转换为索引，或者我可以使用 pandas 中的 Categorical（可能还有其他几种方法）。有什么首选的方法吗？

【问题讨论】：

这不是一个真正的pandas 问题，而是一个方法问题：机器学习。我想说datascience.stackexchange.com 或stats.stackexchange.com 是问这个问题的更好地方。

【解决方案1】：

1) 第二个数据集本质上是可能影响第一个数据集的餐厅特征。示例开业时间或地点是客户可以考虑的重要因素。您可以使用它们，在餐厅级别合并它们。它可以帮助您了解人们如何将位置、时间作为他们对餐厅评分的反映——在这里您甚至可以应用聚类并查看不同的客户对这些变量有不同的敏感性。

例如对于经常出现的客户（主要是外出就餐），如果这是他们日常生活的一部分，可能会更加注意位置/时间等。

您应该应用建模技术并进行多次模拟以获得变量重要性箱线图，并查看在不同数据子集上计算时位置/时间等变量的重要性得分是否有很大差异 - 这将表明不同的客户敏感性.

2）您可以查看标签编码或一个热编码，甚至可以按原样使用变量？在这里解释数据中有多少个级别将很有帮助。你可以看看pd.get_dummies之类的函数

希望这会有所帮助。

【讨论】：