【问题标题】:Indexing wikipedia dump with solr使用 solr 索引维基百科转储
【发布时间】:2013-05-11 15:50:12
【问题描述】:

我的机器上安装了 solr 3.6.2,与 tomcat 完美运行。我想使用 solr 索引一个维基百科转储文件。如何使用 DataImportHandler 执行此操作?还有什么办法吗?我对xml一无所知。

我提到的文件在提取时大小约为 45GB。 任何帮助将不胜感激。

更新- 我试着做 DataImportHandler 页面上所说的。但是有一些错误可能是因为他们的 solr 版本要旧得多。

我的data.config-

<dataConfig>
    <dataSource type="FileDataSource" encoding="UTF-8" />
    <document>
    <entity name="page"
            processor="XPathEntityProcessor"
            stream="true"
            forEach="/mediawiki/page/"
            url="./data/enwiki.xml"
            transformer="RegexTransformer,DateFormatTransformer"
            >
        <field column="id"        xpath="/mediawiki/page/id" />
        <field column="title"     xpath="/mediawiki/page/title" />
        <field column="revision"  xpath="/mediawiki/page/revision/id" />
        <field column="user"      xpath="/mediawiki/page/revision/contributor/username" />
        <field column="userId"    xpath="/mediawiki/page/revision/contributor/id" />
        <field column="text"      xpath="/mediawiki/page/revision/text" />
        <field column="timestamp" xpath="/mediawiki/page/revision/timestamp" dateTimeFormat="yyyy-MM-dd'T'hh:mm:ss'Z'" />
        <field column="$skipDoc"  regex="^#REDIRECT .*" replaceWith="true" sourceColName="text"/>
   </entity>
    </document>

Schema(我只是将他们在网站上提供的部分添加到我的 schema.xml 文件中)

我得到的错误是 -

<response>
<lst name="responseHeader">
<int name="status">0</int>
<int name="QTime">0</int>
</lst>
<lst name="initArgs">
<lst name="defaults">
<str name="config">solr-data-config.xml</str>
</lst>
</lst>
<str name="command">full-import</str>
<str name="status">idle</str>
<str name="importResponse"/>
<lst name="statusMessages">
<str name="Time Elapsed">0:0:1.381</str>
<str name="Total Requests made to DataSource">0</str>
<str name="Total Rows Fetched">0</str>
<str name="Total Documents Processed">0</str>
<str name="Total Documents Skipped">0</str>
<str name="">Indexing failed. Rolled back all changes.</str>
<str name="Rolledback">2013-05-17 16:48:32</str>
</lst>
<str name="WARNING">
This response format is experimental. It is likely to change in the future.
</str>
</response>

请帮忙

【问题讨论】:

标签: solr indexing dump wikipedia


【解决方案1】:

简单的帖子不是索引维基百科的正确方法。您需要查看using DataImportHandler instead。 DIH 支持流式导入。

【讨论】:

  • 是的。我做了一些研究后得到了那个部分。但是,我仍然对 DataImportHandler 的使用感到困惑。请给我一些开胃菜吗?
  • 尝试先通过示例,逐步进行。然后,您可以提出示例尚未涵盖的特定问题。
  • @alexandre 或全部——我正在尝试索引维基百科..但它没有索引所有指定的文件。请帮助我--stackoverflow.com/questions/32628350/…
猜你喜欢
  • 2013-12-26
  • 2011-12-13
  • 1970-01-01
  • 2015-02-12
  • 1970-01-01
  • 1970-01-01
  • 2012-09-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多