【发布时间】:2011-12-29 12:24:21
【问题描述】:
我正在研究一个文本分类问题,我正在尝试将一组单词分类,是的,有很多库可用于分类,所以如果您建议使用它们,请不要回答。
让我解释一下我想要实现的内容。 (举个例子)
单词列表:
- java
- 编程
- 语言
- 升c
类别列表。
- java
- 升c
这里我们将训练这个集合,如下:
- java 映射到类别 1.java
- 编程映射到类别 1.java
- 编程映射到类别 2.c-sharp
- 语言映射到类别 1.java
- 语言映射到类别 2.c-sharp
- c-sharp 映射到类别 2.c-sharp
现在我们有了一个短语“最好的 Java 编程书” 从给定的短语中,以下单词与我们的“单词列表”匹配。
- java
- 编程
“programming”有两个映射类别“java”和“c-sharp”,所以它是一个常用词。
“java”仅映射到类别“java”。
所以我们的短语匹配类别是“java”
这就是我想到的,这个解决方案好不好,可以实施吗,你有什么建议,我错过了什么,缺陷等等。
【问题讨论】:
-
没什么,这是个问题,这行得通吗,我应该花时间尝试实现它吗?
标签: machine-learning classification bayesian