【发布时间】:2011-06-18 04:56:55
【问题描述】:
我必须为一长串单词实现文本分类。我定义了一些类别,例如如果“UK”一词在列表中,它将位于“Regions”下。如果单词是“Pizza”,它将归入“食物”类别。
如何对不同类别的单词进行分类?有没有可用的开源工具来做到这一点?
【问题讨论】:
-
您是在尝试对列表中已经定义了一些类别的单词进行分类,还是对包含单词子集的文档进行分类?我不确定你想在这里做什么。
-
类别是固定的,但单词列表中可以有任意数量的相关/不相关的单词。
-
我正在尝试对单词进行分类,经过一些预处理后,我将得到一个单词列表。所以我必须对单词进行分类,而不是文档
-
但是单词已经映射到类别了?
-
我已经定义了一些类别。现在,对于每个特定的单词,我必须检查该单词是否与任何类别相关,如果它或多或少与该类别相关,我会将其放入该类别桶中,否则我将忽略它
标签: java nlp classification ontology text-mining