【问题标题】:Solr post command always fails with WARNING: Solr return an error 404 for url: http://localhost:8983/solr/core-name/update/extract... for HTML filesSolr post 命令总是失败并显示警告:Solr return an error 404 for url: http://localhost:8983/solr/core-name/update/extract... 对于 HTML 文件
【发布时间】:2022-08-24 03:25:58
【问题描述】:

Linux Mint 20.1
Apache Solr 8.11.1

我可以从示例子目录中发布 XML 文档,例如ipod_other.xml,只是不是一个简单的、格式良好的 HTML 文件,我已将其添加到该子目录中以测试 Solr,因为我预计会为 HTML 文档编制索引。 (请注意,这是我的第一个 Solr 牛仔竞技表演。)

~/dev/solr-8.11.1/example/exampledocs $ ../../bin/post -c gettingstarted  sample.html 
/home/russ/dev/jdk-11.0.10+9/bin/java -classpath /home/russ/dev/solr-8.11.1/dist/solr-core-8.11.1.jar -Dauto=yes -Dc=gettingstarted -Ddata=files org.apache.solr.util.SimplePostTool sample.html
SimplePostTool version 5.0.0
Posting files to [base] url http://localhost:8983/solr/gettingstarted/update...
Entering auto mode. File endings considered are xml,json,jsonl,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log
POSTing file sample.html (text/html) to [base]/extract
SimplePostTool: WARNING: Solr returned an error #404 (Not Found) for url: http://localhost:8983/solr/gettingstarted/update/extract?resource.name=%2Fhome%2Fruss%2Fdev%2Fsolr-8.11.1%2Fexample%2Fexampledocs%2Fsample.html&literal.id=%2Fhome%2Fruss%2Fdev%2Fsolr-8.11.1%2Fexample%2Fexampledocs%2Fsample.html

服务器/solr/gettingstarted/conf/solrconfig.xml我已经添加了:

<requestHandler name=\"/update\" class=\"solr.UpdateRequestHandler\" />

正如其他地方所建议的那样,但这在内外都没有区别。

我可以访问http://localhost:8983/solr/#/http://localhost:8983/solr/#/gettingstarted/core-overview以及运行查询。

  • 虽然看起来 8.11.1 没有原生配置来支持 HTML 文件的 TIKA 提取,但在配置中搜索和实现该请求处理程序并支持 JAR(可以在 contrib 目录中找到)似乎无法解决反正这个问题。
  • 您的意思是您在 solrconfig.xml 中正确注册了 /update/extract 请求处理程序并且仍然得到 404 ?
  • 是的,或者我尝试过。
  • 如果您直接要求 solr 使用 curl 或 bin/post 脚本提取 sample.html 会发生什么? @见Extracting Data without Indexing
  • 我没有尝试过curl。如我的问题所示,我只使用了bin/post 脚本。我试过curl,它确实有效。从现在开始,我将使用curl,尽管对 Solr 的正确工具在这种情况下失败感到失望。谢谢!

标签: solr


【解决方案1】:

我在 Solr 9.0 上有同样的问题。我可以进入管理页面并运行查询,但尝试索引 (/solr/&lt;myCollection&gt;/update/extract) 文件返回 404。 任何想法表示赞赏!

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2013-05-16
    • 2023-03-29
    • 2022-11-11
    • 1970-01-01
    • 2021-11-26
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多