【发布时间】:2009-04-22 01:37:28
【问题描述】:
我想使用 C# 读取以下文件类型的内容:
- RTF
- HTML
- MS Word
.Net 中是否有任何通用 API 用于读取所有文件类型的内容?
【问题讨论】:
-
打开文件并读取其内容
我想使用 C# 读取以下文件类型的内容:
.Net 中是否有任何通用 API 用于读取所有文件类型的内容?
【问题讨论】:
没有内置支持读取大多数这些文件类型。 HTML 是纯文本,因此您可以使用 System.IO/StreamReader 读取它,但您必须自己解析它。
有第三方组件可以读取这些文件类型,但我不确定是否有一个包罗万象的组件。
对于 PDF,我相信iTextSharp 可以让您阅读。
对于 RTF/Word,您可以使用Primary Interop Assemblies
【讨论】:
我在Aspose 之前使用过它,它是一个非常强大的产品,它的价格相当昂贵,因此只有在您的应用程序还需要创建新的 word/pdf/rtf 文档时才推荐它。
我同意其他 cmets 关于仅使用 System.IO 读取 HTML 文件的观点。
【讨论】:
如果您要对数据进行全文索引,请查看使用Lucene,它可以处理这些文件类型。
【讨论】: