【问题标题】:How can I exclude large files while indexing?如何在索引时排除大文件?
【发布时间】:2016-11-16 10:10:14
【问题描述】:

有没有办法配置 Solr 在索引时忽略大文件?

我正在尝试索引网络驱动器,但不知道如何忽略大文件 (>20MB)。

谢谢

【问题讨论】:

    标签: indexing solr web-crawler


    【解决方案1】:

    试试这种性质的东西:

    $ find /mnt -type f -size -20M -exec /opt/solr/bin/post -c wizbang {} \;

    如果您使用 Tika,它有文件大小限制,尽管它不会“忽略”文件:

    Apache Tika and character limit when parsing documents

    How to read large files using TIka?

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2020-02-17
      • 2011-10-25
      • 1970-01-01
      • 2020-05-14
      • 1970-01-01
      • 2020-06-10
      • 2012-03-20
      相关资源
      最近更新 更多