【发布时间】:2019-02-02 14:15:14
【问题描述】:
我有一个半结构化数据集,每一行都属于一个用户:
id, skills
0,"java, python, sql"
1,"java, python, spark, html"
2, "business management, communication"
为什么半结构化是因为以下技能只能从 580 个唯一值的列表中选择。
我的目标是聚集用户,或者根据相似的技能组合找到相似的用户。我曾尝试使用 Word2Vec 模型,这给了我很好的结果来识别相似的技能集 - 例如。
model.most_similar(["Data Science"])
给我 -
[('Data Mining', 0.9249375462532043),
('Data Visualization', 0.9111810922622681),
('Big Data', 0.8253220319747925),...
这为我提供了一个很好的模型来识别个人技能,而不是一组技能。如何利用 Word2Vec 模型提供的向量成功聚类相似用户组?
【问题讨论】:
标签: python nlp cluster-analysis data-mining word2vec