【问题标题】:How to index Word 2003, 2007 and 2010 documents using Lucene.NET如何使用 Lucene.NET 索引 Word 2003、2007 和 2010 文档
【发布时间】:2015-02-25 08:09:24
【问题描述】:

我正在编写一个自定义 Lucene.NET 索引器来启用 MS Word 文档的索引。索引器必须能够处理 MS Word 的最后三个版本:2010、2007 和 2003。

计划是使用作为 VS2010 的一部分安装的 VSTO 互操作程序集从文档中提取文本内容。

有没有更好的方法来实现 Word 文档索引? 这是否意味着我必须在服务器上安装所有三个版本的 Word?还是只是 Word 2010?

工具/环​​境:

  • Lucene.NET 2.3.1.3
  • VS2010 / .NET 3.5
  • Windows 2008 / IIS 7

注意:有关如何实现此功能的详细信息,请参阅Sitecore text search in PDF or Word documents

【问题讨论】:

    标签: ms-word .net-3.5 vsto windows-server-2008 lucene.net


    【解决方案1】:

    您可以使用 IFilter 插件来检索文档的内容,然后为它们编制索引。该接口最初是 Microsoft 索引服务的一部分,但通常可用于索引文档。

    几年前我研究过这项技术,似乎记得 Office 文档的过滤器是内置在 Windows 中的,或者可以与完整的 Office 软件包分开安装,但我在这里可能错了。

    有关 IFilter 技术的更多信息,请访问 IFilter at WikipediaIFilter at MSDN。您将不得不查看 P/Invoke 并可能会得到一些灵感 IFilter at pinvoke.net

    可以在MSDN Code Gallery 找到 C# 示例。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2010-12-26
      • 1970-01-01
      • 2011-05-25
      相关资源
      最近更新 更多