【发布时间】:2011-07-29 22:12:27
【问题描述】:
我有一个 PDF 文件。我想在那里搜索名字。
- 如何使用 Ruby 打开 PDF 并获取其所有文本?
- 是否有任何算法来查找名称?
- 我应该使用什么作为搜索引擎:Sphinx 或更简单的东西(只是 LIKE sql 查询)?
【问题讨论】:
标签: ruby-on-rails ruby algorithm search pdf
我有一个 PDF 文件。我想在那里搜索名字。
【问题讨论】:
标签: ruby-on-rails ruby algorithm search pdf
要在非结构化文本中查找专有名称,您尝试解决的问题的技术名称是 Named Entity Recognition 或命名实体提取。有许多不同的自然语言工具包和研究论文实现了各种算法来尝试解决这个问题。它们都不会获得完美的准确性,但它可能足以满足您的需求。我自己没有尝试过,但是Stanford Named Entity Recognizer 的网页上有一个 Ruby 绑定的链接。
【讨论】:
棘手的问题。这些领域仍属于语义网的研究领域。我只能推荐一些曲目,但很想知道您的明确选择。
我会使用 pdf 阅读器:https://github.com/yob/pdf-reader
您可以使用与某些字典匹配的布隆过滤器。您会假设与字典不匹配的单词是名称......并不总是很现实,但这是第一种方法。 要获得更多名称,您可以检查以大写字母开头的单词(不是很好,但我们会继续寻找一些基本方法)。一些潜在资源:http://snippets.dzone.com/posts/show/4235
对于您的搜索引擎,使用 Rails 的两个主要选择是 Sphinx 和 SolR。
希望这会有所帮助!
【讨论】: