【问题标题】:problem with incremental update in lucenelucene中增量更新的问题
【发布时间】:2010-12-01 04:34:46
【问题描述】:

我正在创建一个可以索引不同文件夹中的许多文本文件的程序。所以这意味着每个包含文本文件的文件夹都会被索引,并且它的索引存储在另一个文件夹中。所以这个另一个文件夹就像我电脑中所有文件的通用索引。我正在使用 lucene 来实现这一点,因为 lucene 完全支持增量更新。这是我用来索引的源代码。

public class SimpleFileIndexer {


public static void main(String[] args) throws Exception   {

    int i=0;
    while(i<2) {
    File indexDir = new File("C:/Users/Raden/Documents/myindex");
    File dataDir = new File("C:/Users/Raden/Documents/indexthis");
    String suffix = "txt";

    SimpleFileIndexer indexer = new SimpleFileIndexer();

    int numIndex = indexer.index(indexDir, dataDir, suffix);

    System.out.println("Total files indexed " + numIndex);
    i++;
    Thread.sleep(1000);

    }
}


private int index(File indexDir, File dataDir, String suffix) throws Exception {
    RAMDirectory ramDir = new RAMDirectory();          // 1
    @SuppressWarnings("deprecation")
    IndexWriter indexWriter = new IndexWriter(
            ramDir,                                    // 2
            new StandardAnalyzer(Version.LUCENE_CURRENT),
            true,
            IndexWriter.MaxFieldLength.UNLIMITED);
    indexWriter.setUseCompoundFile(false);
    indexDirectory(indexWriter, dataDir, suffix);
    int numIndexed = indexWriter.maxDoc();
    indexWriter.optimize();
    indexWriter.close();

    Directory.copy(ramDir, FSDirectory.open(indexDir), false); // 3

    return numIndexed;
}


private void indexDirectory(IndexWriter indexWriter, File dataDir, String suffix)  throws IOException {
    File[] files = dataDir.listFiles();
    for (int i = 0; i < files.length; i++) {
        File f = files[i];
        if (f.isDirectory()) {
            indexDirectory(indexWriter, f, suffix);
        }
        else {
            indexFileWithIndexWriter(indexWriter, f, suffix);
        }
    }
}

private void indexFileWithIndexWriter(IndexWriter indexWriter, File f, String suffix) throws IOException {
    if (f.isHidden() || f.isDirectory() || !f.canRead() || !f.exists()) {
        return;
    }
    if (suffix!=null && !f.getName().endsWith(suffix)) {
        return;
    }
    System.out.println("Indexing file " + f.getCanonicalPath());

    Document doc = new Document();
    doc.add(new Field("contents", new FileReader(f)));      
doc.add(new Field("filename", f.getCanonicalPath(), Field.Store.YES, Field.Index.ANALYZED));
    indexWriter.addDocument(doc);
} }

这是我用于搜索 lucene 创建的索引的源代码

public class SimpleSearcher {

public static void main(String[] args) throws Exception {

    File indexDir = new File("C:/Users/Raden/Documents/myindex");
    String query = "revolution";
    int hits = 100;

    SimpleSearcher searcher = new SimpleSearcher();
    searcher.searchIndex(indexDir, query, hits);

}

private void searchIndex(File indexDir, String queryStr, int maxHits) throws Exception {

    Directory directory = FSDirectory.open(indexDir);

    IndexSearcher searcher = new IndexSearcher(directory);
    @SuppressWarnings("deprecation")
    QueryParser parser = new QueryParser(Version.LUCENE_30, "contents", new StandardAnalyzer(Version.LUCENE_CURRENT));
    Query query = parser.parse(queryStr);

    TopDocs topDocs = searcher.search(query, maxHits);

    ScoreDoc[] hits = topDocs.scoreDocs;
    for (int i = 0; i < hits.length; i++) {
        int docId = hits[i].doc;
        Document d = searcher.doc(docId);
        System.out.println(d.get("filename"));
    }

    System.out.println("Found " + hits.length);

}

}

我现在遇到的问题是我在上面创建的索引程序似乎无法进行任何增量更新。我的意思是我可以搜索一个文本文件,但只能搜索我已经索引到的最后一个文件夹中存在的文件,而我已经索引的另一个以前的文件夹似乎在搜索结果中丢失并且没有显示.你能告诉我我的代码出了什么问题吗?我只是希望能够在我的源代码中具有增量更新功能。所以本质上,我的程序似乎是用新的索引覆盖现有的索引,而不是合并它。

谢谢

【问题讨论】:

    标签: java lucene


    【解决方案1】:

    Directory.copy() 覆盖目标目录,您需要使用IndexWriter.addIndexes() 将新目录索引合并到主目录中。

    您也可以只重新打开主索引并直接向其中添加文档。 RAMDirectory 不一定比经过适当调整的缓冲区和合并因子设置更有效(请参阅IndexWriter 文档)。

    更新:您需要打开 ramDir 而不是 Directory.copy() 进行阅读,打开 indexDir 进行写作,并在 indexDir 编写器上调用 .addIndexes 并将其传递给 ramDir 阅读器。或者,您可以使用.addIndexesNoOptimize 并直接传递ramDir(无需打开阅读器)并在关闭前优化索引。

    但实际上,首先跳过 RAMDir 并在 indexDir 上打开一个编写器可能更容易。也可以更轻松地更新更改的文件。

    示例

    private int index(File indexDir, File dataDir, String suffix) throws Exception {
        RAMDirectory ramDir = new RAMDirectory();
        IndexWriter indexWriter = new IndexWriter(ramDir,
            new StandardAnalyzer(Version.LUCENE_CURRENT), true,  
            IndexWriter.MaxFieldLength.UNLIMITED);
        indexWriter.setUseCompoundFile(false);
        indexDirectory(indexWriter, dataDir, suffix);
        int numIndexed = indexWriter.maxDoc();
        indexWriter.optimize();
        indexWriter.close();
    
    
        IndexWriter index = new IndexWriter(FSDirectory.open(indexDir),
            new StandardAnalyzer(Version.LUCENE_CURRENT), true,  
            IndexWriter.MaxFieldLength.UNLIMITED);
        index.addIndexesNoOptimize(ramDir);
        index.optimize();
        index.close();
    
        return numIndexed;
    }
    

    不过,这样也好:

    private int index(File indexDir, File dataDir, String suffix) throws Exception {
    
        IndexWriter index = new IndexWriter(FSDirectory.open(indexDir),
            new StandardAnalyzer(Version.LUCENE_CURRENT), true,  
            IndexWriter.MaxFieldLength.UNLIMITED);
    
        // tweak the settings for your hardware
        index.setUseCompoundFile(false);
        index.setRAMBufferSizeMB(256);
        index.setMergeFactor(30);
    
        indexDirectory(index, dataDir, suffix);
    
        index.optimize();
        int numIndexed = index.maxDoc();
        index.close();
    
        // you'll need to update indexDirectory() to keep track of indexed files
        return numIndexed;
    }
    

    【讨论】:

    • 我有点迷茫。你能告诉我哪一行需要改吗?我的意思是你能编辑它,这样我就清楚了。 :-)
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-08-20
    相关资源
    最近更新 更多