给定单词/短语的白名单和黑名单，查找文本的相关性答案

【问题标题】：Finding how relevant a text is, given a whitelist and blacklist of words/phrases给定单词/短语的白名单和黑名单，查找文本的相关性
【发布时间】：2013-05-05 18:52:58
【问题描述】：

这是我想在网上搜索一些东西但不知道它叫什么的情况。

我有一组文本文件中的职位描述，有些只有一两句话长，大多数只有一两段。我想写一个脚本，给定一组规则，当它找到我想要的职位描述时会通知我。

例如，假设我正在寻找一份 PHP 编程工作，但不是全职职位，也不是设计职位。所以我的“规则书”可能是：

want: PHP
want: web programming
want: telecommuting
do not want: designing
do not want: full-time position

我可以使用什么方法将这些文件分类为“通过”（与我要查找的内容匹配的描述）和“失败”（描述不相关）？我正在考虑的一些想法：

计算文本文件中出现在我的“规则手册”中的短语，并拒绝那些包含我不想要的单词的短语。但是，这并不总是有效，因为如果描述说“不需要网页设计”怎么办？然后我的算法会说“这包含单词designing，所以它不相关”实际上是！
在文本中搜索我想要和不想要的短语时，将特定 Levenshtein 距离内的短语计为相同的短语。例如，designing 和 design 以及单词拼写错误（如 programing）应以相同方式处理。
我有大量手动查看的描述。有没有办法可以“教”程序“这些是好的描述示例，这些是坏描述的示例”？

有谁知道这个“过滤过程”叫什么，和/或对我如何完成这个有任何建议或方法？

【问题讨论】：

标签： search filter machine-learning document-classification

【解决方案1】：

你基本上有一个文本分类或文档分类的问题。这是二元分类的一个特例，它本身就是监督学习的一个特例。这是一个很好研究的问题，有很多工具可以做到这一点。基本上，您将一组好文档和坏文档提供给学习或训练过程，该过程会找到与正面和负面文档密切相关的单词，并输出一个能够将看不见的文档分类为正面或非正面的函数。朴素贝叶斯是这类任务最简单的学习算法，它会做得不错。有一些更高级的算法，例如逻辑回归和支持向量机，它们可能会做得更好，但它们更复杂。

要确定哪些变体词实际上彼此等价，您需要进行某种词干提取。 Porter 词干分析器是这里的常见选择。

【讨论】：