【发布时间】:2011-07-03 16:53:20
【问题描述】:
假设我有一堆文章(数千篇)要标记、分类等。理想情况下,我想通过手动分类/标记几百篇来训练 something,并且然后放开它。
您会推荐哪些资源(书籍、博客、语言)来完成这样的任务?我的一部分认为这很适合Bayesian Classifier 甚至Latent Semantic Analysis,但除了我从一些ruby gems 中找到的内容之外,我并不熟悉。
贝叶斯分类器可以解决这样的问题吗?我应该更多地关注语义分析/自然语言处理吗?或者,我应该只是从那里寻找关键字密度和映射吗?
感谢任何建议(如果需要的话,我不介意挑选几本书)!
【问题讨论】:
-
在这个领域,NLP 主要用于“标记化”——即将输入文档切割成单个单词。然而,一种天真的方法(单词是字母,其他都是空格)通常足以进行分类,所以我不会过多地打扰。对于其他一切,请参阅下面的答案:)
标签: nlp tagging classification bayesian