【问题标题】:Obtaining Image File Metadata and Indexing to Solr using TikaEntityProcessor使用 TikaEntityProcessor 获取图像文件元数据并索引到 Solr
【发布时间】:2023-03-09 17:35:02
【问题描述】:

有人可以建议如何获取图像文件(例如 .jpg、.png、.gif 等)的元数据并将这些数据索引到 Apache Solr 吗?

目前,我使用的是 Apache Solr 4.2。在 DataImport 配置文件中(对我来说,我将其命名为“db-import-config.xml”),我尝试将 TikaEntityProcessor 与 ImageMetadataExtractor 一起使用。

<entity name="tika-test"
        dataSource="binary"      // using BinURLDataSource
        processor="TikaEntityProcessor"
        onError="skip"
        rootEntity="false"
        url="${dbmw_image.url}"
        format="none"
        parser="org.apache.tika.parser.image.ImageMetadataExtractor">
        <field column="contributor" name="authors" meta="true"/>
        <field column="creator" name="authors" meta="true"/>
        <field column="data" name="creationDate" meta="true"/>
        <field column="modified" name="lastModifiedDate" meta="true"/>
 </entity>

“列”字段均来自都柏林核心元数据列表。当我在 Solr 上尝试数据导入时,这些字段都没有被选中。我需要以下问题的答案:

  1. 图像文件有哪些可用的元数据字段名称? (即我可以放在上面 Tika 实体中“字段”的“列”属性中的值)
  2. 如何索引和获取这些元数据值(通过 Tika?)并索引到 Solr? (例如,我需要哪个解析器?我应该如何设置 tika 实体属性等)

感谢任何建议。

谢谢,

【问题讨论】:

    标签: image apache solr indexing metadata


    【解决方案1】:

    【讨论】:

      猜你喜欢
      • 2019-08-30
      • 1970-01-01
      • 1970-01-01
      • 2018-02-05
      • 2013-03-03
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-10-13
      相关资源
      最近更新 更多