【发布时间】:2022-08-24 03:25:58
【问题描述】:
Linux Mint 20.1
Apache Solr 8.11.1
我可以从示例子目录中发布 XML 文档,例如ipod_other.xml,只是不是一个简单的、格式良好的 HTML 文件,我已将其添加到该子目录中以测试 Solr,因为我预计会为 HTML 文档编制索引。 (请注意,这是我的第一个 Solr 牛仔竞技表演。)
~/dev/solr-8.11.1/example/exampledocs $ ../../bin/post -c gettingstarted sample.html
/home/russ/dev/jdk-11.0.10+9/bin/java -classpath /home/russ/dev/solr-8.11.1/dist/solr-core-8.11.1.jar -Dauto=yes -Dc=gettingstarted -Ddata=files org.apache.solr.util.SimplePostTool sample.html
SimplePostTool version 5.0.0
Posting files to [base] url http://localhost:8983/solr/gettingstarted/update...
Entering auto mode. File endings considered are xml,json,jsonl,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log
POSTing file sample.html (text/html) to [base]/extract
SimplePostTool: WARNING: Solr returned an error #404 (Not Found) for url: http://localhost:8983/solr/gettingstarted/update/extract?resource.name=%2Fhome%2Fruss%2Fdev%2Fsolr-8.11.1%2Fexample%2Fexampledocs%2Fsample.html&literal.id=%2Fhome%2Fruss%2Fdev%2Fsolr-8.11.1%2Fexample%2Fexampledocs%2Fsample.html
在服务器/solr/gettingstarted/conf/solrconfig.xml我已经添加了:
<requestHandler name=\"/update\" class=\"solr.UpdateRequestHandler\" />
正如其他地方所建议的那样,但这在内外都没有区别。
我可以访问http://localhost:8983/solr/#/和http://localhost:8983/solr/#/gettingstarted/core-overview以及运行查询。
-
虽然看起来 8.11.1 没有原生配置来支持 HTML 文件的 TIKA 提取,但在配置中搜索和实现该请求处理程序并支持 JAR(可以在 contrib 目录中找到)似乎无法解决反正这个问题。
-
您的意思是您在 solrconfig.xml 中正确注册了
/update/extract请求处理程序并且仍然得到 404 ? -
是的,或者我尝试过。
-
如果您直接要求 solr 使用 curl 或 bin/post 脚本提取 sample.html 会发生什么? @见Extracting Data without Indexing
-
我没有尝试过
curl。如我的问题所示,我只使用了bin/post脚本。我试过curl,它确实有效。从现在开始,我将使用curl,尽管对 Solr 的正确工具在这种情况下失败感到失望。谢谢!
标签: solr