【发布时间】:2020-06-14 08:01:25
【问题描述】:
首先,如果我没有遵循本网站的一些最佳实践,我深表歉意,正如您将看到的,我的家主要是 MSE(数学堆栈交换)。
我目前正在开展一个项目,我在该项目中构建了一个假期推荐系统。最初的想法有点类似于 20 个问题:我们问用户某些问题,例如“你喜欢博物馆吗?”、“你喜欢建筑”、“你喜欢夜生活吗”等,然后根据这些答案决定为用户提供他们最好的度假目的地。我们根据从网站上抓取的关键字来回答这些问题,我们将实施的决策树将使我们能够有效地确定下一个要问用户的问题。但是,我们在实施过程中遇到了一些困难。我们的一些困难示例如下:
问题的粒度存在问题。例如,说一个城市适合“自然爱好者”很好,但这并不意味着什么。对于一些人来说,大自然可能包括炎热、阳光明媚和潮湿的假期,而对于另一些人来说,大自然可能包括在凉爽的树林中快速徒步旅行。幸运的是,我们目前使用的 API 为我们提供了一个城市中的景点列表,细化到相当精细的水平(例如,它区分不同的水上运动活动,如水上摩托艇或激流漂流)。我的问题是:我们是否需要创建某种层次结构,例如:
- 自然->(海洋、山地、平原)(山地->徒步旅行、滑雪……)
或者最好简单地包括底层结果(活动本身)并就这些问题提出问题?我只是问,因为我不熟悉分类是如何完成的以及最终输出是如何产生的。是否应该使用更好的结构?
非常感谢您的帮助。
【问题讨论】:
标签: python machine-learning decision-tree