【问题标题】:Which clustering algorithm should I use to cluster job titles?我应该使用哪种聚类算法来聚类职位?
【发布时间】:2016-07-03 02:42:52
【问题描述】:

我有一个包含职位的数据集,我想对它们进行聚类。

职位包括:

Automotive Service Worker
Community Police Services Aide
DEPUTY SHERIFF
COUNSELOR, JUVENILE HALL
Swimming Instructor
FIREFIGHTER
Porter
Account Clerk
Deputy Sheriff
Assistant Retirement Analyst
POLICE OFFICER III
Patient Care Assistant
Public Service Trainee
PUBLIC RELATIONS OFFICER
SPECIAL NURSE

我将清理标题(删除不需要的字符,将所有标题大写等),以使操作更容易一些。一旦我对语料库进行矢量化,维度将非常非常大。对于这样的问题,您会推荐哪些聚类算法? KMeans 对高维问题表现良好吗?

【问题讨论】:

    标签: machine-learning nlp scikit-learn


    【解决方案1】:

    使用brown clustering。该实现在here可用。

    【讨论】:

    • 您能详细说明一下为什么布朗聚类是解决这个问题的好选择吗?
    • 在帖子中很难解释。也许你需要看看柯林斯的讲座。如果我没记错的话,他在他的 NLP-coursera 课程中有这个内容:coursera.org/course/nlangp
    • 我有一个类似的问题:集群项目标题(用空格分隔的单词)。那里有在线实施吗?谢谢。
    猜你喜欢
    • 2018-10-01
    • 2017-11-21
    • 2013-09-20
    • 2016-10-14
    • 2014-01-11
    • 1970-01-01
    • 2017-07-23
    • 2015-02-17
    • 2020-08-01
    相关资源
    最近更新 更多