【发布时间】:2011-01-05 14:13:55
【问题描述】:
在 .Net 中,从以下几种二进制文件格式中提取所有文本的最佳方法是什么:PDF、Word、Excel 和 PowerPoint。
它不需要格式化,只是文件中文本的大转储。
代码会很棒,但我真的只需要指出一些最佳实践或模式。
【问题讨论】:
-
我怀疑只有一种方法可以从所有这些中提取文本 - 它们是非常不同的格式。只是一个想法。
-
使用几个第三方库,并在其周围添加一个漂亮的包装器。