【发布时间】:2013-05-05 18:52:58
【问题描述】:
这是我想在网上搜索一些东西但不知道它叫什么的情况。
我有一组文本文件中的职位描述,有些只有一两句话长,大多数只有一两段。我想写一个脚本,给定一组规则,当它找到我想要的职位描述时会通知我。
例如,假设我正在寻找一份 PHP 编程工作,但不是全职职位,也不是设计职位。所以我的“规则书”可能是:
want: PHP
want: web programming
want: telecommuting
do not want: designing
do not want: full-time position
我可以使用什么方法将这些文件分类为“通过”(与我要查找的内容匹配的描述)和“失败”(描述不相关)?我正在考虑的一些想法:
- 计算文本文件中出现在我的“规则手册”中的短语,并拒绝那些包含我不想要的单词的短语。但是,这并不总是有效,因为如果描述说“不需要网页设计”怎么办?然后我的算法会说“这包含单词
designing,所以它不相关”实际上是! - 在文本中搜索我想要和不想要的短语时,将特定 Levenshtein 距离内的短语计为相同的短语。例如,
designing和design以及单词拼写错误(如programing)应以相同方式处理。 - 我有大量手动查看的描述。有没有办法可以“教”程序“这些是好的描述示例,这些是坏描述的示例”?
有谁知道这个“过滤过程”叫什么,和/或对我如何完成这个有任何建议或方法?
【问题讨论】:
标签: search filter machine-learning document-classification