【问题标题】:Sorting words into categories in Python [closed]在Python中将单词分类[关闭]
【发布时间】:2016-03-09 09:09:04
【问题描述】:

我有大约 3,000 个单词,我想将它们分成大约 20-50 个不同的类别。我的话是您可能在公司名称中找到的典型短语。例如“面子”、“书”、“销售”、“力”。

到目前为止,我一直在查看的库是 pandas 和 scikit-learn。我想知道是否有适合此的机器学习或深度学习算法?

我一直在寻找的主题是分类:确定对象属于哪个类别,以及降维:减少要考虑的随机变量数。

当我在 Google 上搜索将字词分类时,它会弹出一些儿童谜题,例如“你用铅笔做什么” - 画画。或“房屋的一部分”——院子、房间。

【问题讨论】:

  • 是用户输入吗?即单词可以拼写错误吗?喜欢 facebook -> facbeook?如果是这样,您可能必须创建一个包含所有单词和拼写错误的单词的长列表并将它们循环以进行分类。..
  • 我已经有了想要使用的单词的完整列表,所以它不会是用户输入

标签: python machine-learning deep-learning


【解决方案1】:

要让深度学习在这方面发挥作用,您必须开发一个大型数据集,很可能是手动开发。事实上,最大的自然语言处理数据集是手动创建的。 但是,即使您能够找到模型可以学习的数据集。那么诸如梯度提升树之类的模型将是其中一个非常适合像这样的多类分类的模型。一个经典的库是 xgboost。

【讨论】:

    猜你喜欢
    • 2016-12-19
    • 2023-04-05
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-10-03
    • 1970-01-01
    相关资源
    最近更新 更多