【问题标题】:Generate keywords for contents through Solr通过 Solr 为内容生成关键字
【发布时间】:2014-12-13 00:32:56
【问题描述】:

我正在为我的新 PHP 应用程序集成 Solr

由于我是 solr 部分的新手,我想知道是否可以通过 solr 为每个内容页面生成一些有用的标签?类似于自动标记机制。

在此先感谢...

P.S 我的内容提供波斯语和英语两种语言。

【问题讨论】:

标签: php solr lucene


【解决方案1】:

类似于自动标记机制。

是的,你可以构建类似的东西。

有两种不同的方式来实现这一点:

  1. 使用Clustering Component from Solr 构建文档组并通过solr 标记这些文档。标签类似于您正在寻找的标签。
  2. 使用MLT功能实现标记。

我使用 1.) 方法开始了一个自动标记项目,取得了中等成功。为一组文档查找标签是一个艰难的过程。
但幸运的是,我有一些已经标记过的文档。如果您也有一些带有有效标签的文档,那么您可以使用 2.) 方法以这些文档为基础开始学习:

获取一个没有标签的文档,并针对带有标签的文档执行 MLT 搜索。从您喜欢的文档中获取标签并计算它们。根据计数,将一个或多个标签应用于未标记的文档。就我而言,这非常有效。方法 2.) 是一种基于机器学习的廉价实现,但您只需 5% 的工作投入即可获得 95% 的成功。

【讨论】:

  • 我真的很想看到第一种方式的动作,你有这个功能的例子吗?
  • 非常感谢,我尝试在我的solr 应用程序中启用集群,但是集群系统在查询时没有显示任何指向一个结果的标签!
  • @NullPointer 抱歉,does not show any tags 不是有效的错误描述。 ;-) 如果您已决定使用 1.) 方法,那么开始一个新的 SO 问题可能是一个好主意,其中包含配置详细信息和详细描述您得到什么以及您希望拥有什么。为了熟悉carrot to,我推荐你下载并使用carrot2 workbench。 project.carrot2.org/download.html这对学习carrot2配置很有帮助。
【解决方案2】:

由于它是一个 PHP 应用程序,如果您可以在 php 中生成标签然后插入/更新到 Solr,这里有几个选项 -

  • 如果使用网络服务没问题,请检查Yahoo's Term Extractor
  • 如果您可以/想要自己托管术语提取服务(可能在本地服务器中),请查看FiveFilters
  • Here 是一个php 函数,用于从文本块中提取有价值的单词。肯定不如 Yahoo Term Extractor 高效,但它可能对你有用。

【讨论】:

    猜你喜欢
    • 2011-11-30
    • 2013-06-12
    • 1970-01-01
    • 1970-01-01
    • 2018-02-17
    • 1970-01-01
    • 2014-05-28
    • 2011-01-11
    • 2011-11-26
    相关资源
    最近更新 更多