【发布时间】:2020-05-27 08:04:19
【问题描述】:
在泡菜中……
我有一个包含 >100,000 次观察的数据集;数据集的列包括 CustomerID、VendorID、ProductID 和 CatNMap。这是它的样子:
如您所见,前 3 列(CustomerID、VendorID、ProductID)中表示的值表示唯一的数字映射值,如果在 x,y 平面上表示将毫无意义(这消除了对许多分类方法的使用);最后一列包含客户分配的类别的字符串。现在,这里是我不明白的部分,不知道如何接近......
目标: 是为客户预测未来的 CatNMap 值,但是在我看来,我在这里拥有的功能没有用,这是真的吗?现在如果是,我可以使用什么方法,因为 CatNMap 列有 >7,000 个唯一值;另外,如果假设同一产品有 2 个或更多不同的类别由不同的客户分配,那么任何方法将如何处理对未来项目的分类?我需要为此实施 NN 吗?
感谢所有答案!
【问题讨论】:
-
请不要忘记为所有有效的答案投票,并接受您最喜欢的答案。可能您知道这一点,但这是为了让社区知道哪些答案是有用的,并奖励人们的时间和精力;)请参阅此 meta.stackexchange.com/questions/5234/ 和 meta.stackexchange.com/问题/173399/
标签: python machine-learning neural-network classification multiclass-classification