【问题标题】:Nutch index writerNutch 索引编写器
【发布时间】:2020-08-19 18:29:32
【问题描述】:

是否有人为 Azure 搜索创建了自定义 Apache Nutch 索引编写器?我想使用 Apache Nutch 爬虫来爬取一些网站,然后将爬取的内容推送到 Azure 搜索实例中。 Nutch 附带了一些用于其他开源搜索引擎的索引编写器和一些文件编写器,但不足为奇的是,没有针对 Azure 搜索的特定内容。

我浏览了网络并搜索了这些论坛,但没有找到 Azure 搜索的索引编写器。

我可以自己写一个,但我试图避免浪费我的 Java 技能(没有冒犯 Java,但这个小实验的投资回报率并不高)。

【问题讨论】:

  • indexer-cloudsearch 插件(用于 AWS cloudsearch)可能是编写插件的一个很好的起点。

标签: nutch azure-cognitive-search


【解决方案1】:

查看list of available IndexWriters for Nutch,我们会看到诸如 indexer-dummy 或 indexer-csv 之类的东西。我想调整其中之一以将内容提交到 Azure 搜索 API 不会有太多工作。我会调查那个虚拟索引器的作用,看看是否可以使用。

否则,CSV 编写器将最终完成这项工作。我可以想到两种方法。

  1. 将 CSV 文件提交到 Blob 存储并配置 Azure 搜索数据源和索引器,并提供提取 CSV 文件的选项(开箱即用)。
  2. 将 CSV 文件拖放到本地存储。编写一些 C# 代码来读取文件并通过推送 API 提交到 Azure 搜索。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2014-03-07
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-04-08
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多