【问题标题】:"Hadoop-Solr Lucidworks Project" retrieve input name-path“Hadoop-Solr Lucidworks Project”检索输入名称路径
【发布时间】:2023-03-05 09:54:01
【问题描述】:

我正在使用这个项目:https://github.com/lucidworks/hadoop-solr 有谁知道正在处理的文档的名称(或路径)保存在哪个值中。我想将此值检索到 Solr Admin(将带有其名称的字段添加到我的架构中)。这可能吗?

示例:我希望能够看到文档的名称,查询从中返回相同的结果。

我正在使用这个命令运行项目:

    hadoop jar solr-hadoop-job-2.2.5.jar 
    com.lucidworks.hadoop.ingest.IngestJob  
    -Dlww.commit.on.close=true -DcsvDelimiter= 
   -cls com.lucidworks.hadoop.ingest.CSVIngestMapper -c spyros1  
    - i  /usr/local/hadoop/input 
    -of com.lucidworks.hadoop.io.LWMapRedOutputFormat 
    -s http://127.0.1.1:8983/solr

【问题讨论】:

    标签: hadoop solr lucidworks


    【解决方案1】:

    这对我有用:

    hadoop jar solr-hadoop-job-2.2.5.jar com.lucidworks.hadoop.ingest.IngestJob  
        -Dlww.commit.on.close=true 
        -Dcom.lucidworks.hadoop.ingest.RegexIngestMapper.regex="\\w+" 
       -Dcom.lucidworks.hadoop.ingest.RegexIngestMapper.groups_to_fields=0=match_ss  
       -cls com.lucidworks.hadoop.ingest.RegexIngestMapper  
       -c collection1 -i /path/* -s http://127.0.1.1:8983/solr
       -of com.lucidworks.hadoop.io.LWMapRedOutputFormat 
    

    另请参阅this 了解更多信息。

    【讨论】:

      【解决方案2】:

      对于CSVIngestMapper,文件路径当前未添加到任何 Solr 字段。

      随时在 repo 中创建问题。 https://github.com/lucidworks/hadoop-solr

      也欢迎 PR

      编辑:(有关解决方案,请参阅https://github.com/lucidworks/hadoop-solr/issues/16

      【讨论】:

      • 那么有没有办法检索结果所属文档的名称或路径?如果我使用 2 个 txt 文档,我应该如何知道结果来自哪个 txt。是否可用于任何其他 Ingest Mapper? @acesar
      • > 是否可用于任何其他 Ingest Mapper?是的,RegexIngestMapper/GrokIngestMapper 添加了一个名为 path 的字段。但我不确定我是否在关注您的用例。
      • 我正在为我的收藏使用“data_driven_schema_configs”。该字段必须添加到 data_driven_schema_configs 的managed-schema 内,对吗? @acesar
      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多