【问题标题】:Best solution to index and search text on internal pages?在内部页面上索引和搜索文本的最佳解决方案?
【发布时间】:2012-07-05 02:52:11
【问题描述】:

我有一个高流量的新闻网站,我需要为其添加搜索功能。我需要免费或便宜的东西,可以立即将新的新闻故事添加到搜索结果中,处理高流量,并允许自定义结果样式。我查看了 Google 自定义搜索,这似乎不是一个好的选择,因为您必须为高流量付费,而且他们不会立即添加新的新闻文章,除非我每次添加文章时都付费为它们编制索引。

有没有人知道可以满足我需求的不同搜索 API 或者更好的库或某种我可以使用的脚本?例如,Sphinx、Lucene、Solr 等是否具有索引网页的能力?如果是这样,这是否会有巨大的数据需求,使我的亚马逊网络服务账单飙升?最好的解决方案是什么?

【问题讨论】:

  • 数据是如何存储的?一个数据库?
  • 文章的 html 存储在文本文件中,而不是数据库中。
  • 哎呀,考虑迁移到现代 CMS 吗?
  • 大声笑,这也在考虑之中。我假设这样做会使搜索这些页面的过程变得更简单并打开我们的选择?
  • 是的,所有 CMS 都内置了这种功能。

标签: php mysql search google-search-api


【解决方案1】:

如果它们都只是一堆文本文件,您可以使用 elasticsearchattachment plugin 来索引这些文本文件。

但是,请注意,这不是简单的即插即用情况。您将需要编写一些代码来获取这些文本文件,然后将其索引到弹性搜索中。

您还必须编写一些代码,以便每次更新或添加页面时,都会调用 elasticsearch 的网络服务以对其进行索引或更新。

Elasticsearch 使用 REST API,因此您可以使用 CURL 轻松与其交互,就像任何普通的 Web 服务一样。还有一些 PHP 库可以简化交互。数据以 JSON 格式发送和接收。

我认为弹性搜索在这里很合适,但不妨试一试,看看它是如何工作的。

【讨论】:

  • 谢谢!我来看看弹性搜索!
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2010-09-07
  • 2020-09-15
  • 1970-01-01
  • 2018-04-24
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多