【问题标题】:How to classify words to their correspoding categories?如何将单词分类到对应的类别?
【发布时间】:2011-06-18 04:56:55
【问题描述】:

我必须为一长串单词实现文本分类。我定义了一些类别,例如如果“UK”一词在列表中,它将位于“Regions”下。如果单词是“Pizza”,它将归入“食物”类别。

如何对不同类别的单词进行分类?有没有可用的开源工具来做到这一点?

【问题讨论】:

  • 您是在尝试对列表中已经定义了一些类别的单词进行分类,还是对包含单词子集的文档进行分类?我不确定你想在这里做什么。
  • 类别是固定的,但单词列表中可以有任意数量的相关/不相关的单词。
  • 我正在尝试对单词进行分类,经过一些预处理后,我将得到一个单词列表。所以我必须对单词进行分类,而不是文档
  • 但是单词已经映射到类别了?
  • 我已经定义了一些类别。现在,对于每个特定的单词,我必须检查该单词是否与任何类别相关,如果它或多或少与该类别相关,我会将其放入该类别桶中,否则我将忽略它

标签: java nlp classification ontology text-mining


【解决方案1】:

我不完全确定您要做什么,但如果您想要为多个类别建立一个代表词列表,那么您可以通过选择前 N 个最常见的词来做到这一点,不包括stop words,来自代表每个类别的一组文档。这是创建非常基本的本体的一种简单方法。

例如,要创建一组关于 food 的词,您可以在网络上抓取 recipiesmenus,然后从这些词中选择最常见的词.我希望一旦你排除了停用词,你就会有一个很好的与食物相关的词列表。对于与 programming 相关的字词,您可以抓取 stackoverflow.com 等...

再一次,这可能不是你想要做的......

【讨论】:

  • 是的,这正是我想要实现的。你提供了一个非常好的方法来做到这一点。就一个点?在这方面,相似性度量是否可以帮助我们,即两个词彼此相关的程度?
  • re: 相似性——理论上是的,但实际上它很棘手,而且通过为每个要分类的类提供足够大的文档集来生成单词覆盖率要容易得多。您希望通过这样做,您将捕捉到与该类别相关的每一个常用词。一旦你尝试过,你会发现最常用的词很有代表性。
猜你喜欢
  • 2010-10-31
  • 2018-05-19
  • 2023-04-05
  • 1970-01-01
  • 1970-01-01
  • 2017-04-03
  • 1970-01-01
  • 1970-01-01
  • 2011-08-11
相关资源
最近更新 更多