关于机器学习场景中用户分类的建议答案

【问题标题】：Advice on classifying users in machine learning scenario关于机器学习场景中用户分类的建议
【发布时间】：2017-04-26 19:47:00
【问题描述】：

我正在寻找一些关于根据注册过程的答案将用户分为不同组的问题的建议。

想法是这些分类会将具有相似旅行习惯的人分组，即喜欢冒险、放松、美食家等。这不应该是用户知道的分类，所以不像只是询问什么样的假期那么简单他们喜欢（重点是消除用户偏见/不知道自己该放在哪里）。

我认为它的工作方式是提出问题，例如他们使用的应用程序、他们在社交媒体（gopro、餐馆等）上与之互动的帐户，给出一些场景并询问哪个听起来最好，这些将从提供给的集合中选择它们，因此我们可以控制变量。我遇到的主要问题是如何获取与这些数值相关联的数值。

我研究了各种机器学习算法，并意识到这很可能是一个聚类问题，但我似乎无法弄清楚如何使用这种风格的问题来为每个维度分配一个值，这实际上会给出一个有用的分类.

我的另一个问题是，是否有一些资源可以找到有关此类问题的信息，以要求用户获得允许进行此类分类的信息。

如果有人熟悉的话，我设想的过程类似于https://www.thread.com/signup/introduction。

欢迎任何建议。

【问题讨论】：

标签： machine-learning artificial-intelligence classification user-input

【解决方案1】：

您可以使用素数。如果所有可能选项列表中的每个选项都分配了不同的质数，并且用户的选择被保存为产品，那么如果选择/选择的模数为 0，那么您将始终知道用户是否做出了特定选择。素数，瞧！

【讨论】：

真是太聪明了，谢谢！我怎么能用它来创建模型呢？

【解决方案2】：

你手头的问题是你想根据分类变量计算相似度度量，这是他们的应用程序、帐户等的选择。除非你衡量这些应用程序在属性方面的相似性，例如如何美食家是应用程序，很难指定。此外，您需要知道分类变量可以假设的所有可能状态，以创建这样的相似性度量。如果最终目标是推荐相似的人（基于应用程序选择或社交媒体帐户选择）喜欢或喜欢的东西，您应该考虑协同过滤。如果您的特征空间定义明确且是静态的（已知应用程序、已知帐户、具有少量缺失值的有限集合），那么请查看基于内容的推荐系统，像 Market Basket Analysis 这样简单的东西可以为您提供合理的工作模型。否则，如果您真的想用一堆可以假设随机状态的特征对系统进行建模，这可以使用多元概率模型来完成，如果结构（特征之间的关系和影响）定义明确，您可以从概率图形模型中受益，例如贝叶斯网络。不过，在开始解决问题之前，您确实需要更好地定义问题。

【讨论】：

对不起，我应该提到应用程序/帐户等将来自给定集合，所以我将查看市场篮分析