【问题标题】:How to index HDFS pdf files in Solr?如何在 Solr 中索引 HDFS pdf 文件?
【发布时间】:2015-06-07 04:25:44
【问题描述】:

hadoop jar jobjar/hadoop/hadoop-lws-job-1.2.0-0-0.jar com.lucidworks.hadoop.ingest.IngestJob -Dlww.commit.on.close=true -DcsvFieldMapping=0=id,1=文本 -cls com.lucidworks.hadoop.ingest.CSVIngestMapper -c hdp1 -i /user/solr/data/csv/mydata.csv -of com.lucidworks.hadoop.io.LWMapRedOutputFormat -s http://localhost:8983/solr

我尝试在命令中使用上面的代码来执行 PDF 文件,但我得到了不想要的输出!

com.lucidworks.hadoop.ingest.CSVIngestMapper 用于专用 CSV 文件,那么“PDF 文件”有类似的吗? 期待您的帮助。

【问题讨论】:

    标签: hadoop indexing solr hdfs


    【解决方案1】:

    您应该使用 DirectoryIngestMapper:

    hadoop jar jobjar/hadoop/hadoop-lws-job-1.2.0-0-0.jar 
    com.lucidworks.hadoop.ingest.IngestJob -Dlww.commit.on.close=true    
    com.lucidworks.hadoop.ingest.DirectoryIngestMapper -c hdp1 -i 
    /user/solr/data/pdf/*.pdf -of com.lucidworks.hadoop.io.LWMapRedOutputFormat -s 
    http://localhost:8983/solr
    

    假设 /user/solr/data/pdf/*.pdf 是您的 pdf 文件所在的位置。

    【讨论】:

      猜你喜欢
      • 2012-04-13
      • 1970-01-01
      • 1970-01-01
      • 2013-01-20
      • 2014-07-12
      • 2018-04-26
      • 2018-07-24
      • 1970-01-01
      • 2014-12-16
      相关资源
      最近更新 更多