【问题标题】:Is there a search engine that support regular expression search? [closed]是否有支持正则表达式搜索的搜索引擎? [关闭]
【发布时间】:2012-06-22 13:27:19
【问题描述】:

首先,我检查了这个question,但answer 指的是一个过时的服务。

那么是否有基于网络的(或软件,我不在乎)提供正则表达式搜索互联网内容?

【问题讨论】:

  • 我相信如果您提供more details 来说明您要完成的工作,您会得到更简洁的答案。
  • 我正在尝试根据正则表达式获取结果,就像我的问题标题所说的那样!
  • Google 搜索能够找到一些简单正则表达式的匹配项。有关正则表达式搜索的示例,请参阅this answer

标签: search-engine


【解决方案1】:

由于我完全支持作者,让我在这里写一个来自 superuser.com question 的答案:

引用Ask Metafilter:

使关键字搜索在数百 TB(或目前的索引)上有效的唯一可能方法是预先计算单词索引。

事实上,一个完整的正则表达式引擎是图灵完备的,您可以编写任意正则表达式来吞噬几乎无限量的 CPU 时间和内存。由于所有这些原因,他们向公众提供正则表达式搜索将是技术上的疯狂。

更新:正如它正确指出的那样,正则表达式不是图灵完备的。请继续关注更详细的答案:

待定...

【讨论】:

  • 等等,如果你的意思是创建一个小型 Web 服务,那么你是对的(在某些情况下,这样的服务会非常有用)。但是,如果我们谈论的是一种功能齐全的网络爬虫的实现,那我认为这太疯狂了(嗯,这是可能的,但非常耗时且消耗 MIPS)。
  • 所以超时查询耗时过长,不一定是精神错乱。
  • @MikeBantegui 嗯?有很多服务可以评估图灵完备语言中的表达式。如果时间太长,它就会放弃。
  • 混合版本会很好:首先引擎以老式方式搜索 x 结果,然后根据正则表达式进行过滤。一个智能界面可能能够首先将正则表达式转换为谷歌查询。
  • 正则表达式图灵完成?!正则表达式可以表达正则语言,它是图灵机接受的所有语言的严格子集......请参阅en.wikipedia.org/wiki/Chomsky_hierarchy
【解决方案2】:

正则表达式引擎没有即时搜索。这可能是由于页面的索引方式。允许一个人对网络进行 grep 将需要大量的计算能力。

【讨论】:

  • 您的链接已失效
【解决方案3】:

虽然您不太可能找到使用完整正则表达式搜索的网站,但 google 确实有一些能力进行匹配。取决于您要达到的目的,这可能就足够了。

GoogleGuide 似乎相当深入,有一些可用的选项。或许如果您举一个您想要搜索的查询类型的示例,我们可以找到解决方案?

【讨论】:

  • 我检查了这个,但是很差,实际上很差!我无法运行任何 simple (与我可以使用正则表达式相比更简单)搜索,例如 \paul*\ (谷歌搜索 paul* 与 \paul*\ 的 方式 不同) 或 \paul{3}\ 和许多其他情况..
  • 这对于功率搜索也很有趣johntedesco.net/blog/2012/06/21/…
【解决方案4】:

如果它需要是正则表达式,那么我认为你搞砸了。但是,如果您只是在寻找更多的搜索能力,http://www.googleguide.com/advanced_operators_reference.html

【讨论】:

    【解决方案5】:

    dayyan 是正确的,它是反向索引使搜索引擎快速;如果您只有 100 TB 的闪存盘,则无法加速 PB 内容的正则表达式搜索。关键字搜索,反向索引,没问题。

    blekko 的 web grep (https://blekko.com/ws/+/webgrep) 支持正则表达式,但我们得到的大多数搜索都是针对常量字符串,通常在 HTML 中,因为这很有趣:谁使用微格式?谁使用各种 javascript 库?谁使用各种评论系统?以此类推。

    如果您向我们发送了一个正则表达式,我们很乐意为您运行它。

    运行这些搜索包括一个 MapReduce 作业,该作业在我们爬网中的所有 html 上运行。这就是为什么需要一段时间(一两天)才能得到答案的原因。

    【讨论】:

    • 链接已损坏。
    • 没错,blekko 于 2015 年 3 月 27 日被 IBM 收购,IBM 于当天停止运营 blekko 的公共搜索引擎。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-11-27
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多