【发布时间】:2012-03-02 19:32:45
【问题描述】:
也许这些应该是单独的问题,每种格式一个,但是...
什么是最可靠的库(任何语言)、二进制文件(适用于任何平台)或网络服务(免费或非免费) ) 用于将多种“包含文本”的格式转换为纯文本?
可靠是指几乎 100% 能够提取所有人类可读的文本,而不是提取“代码”或“标记”。
包含文本的格式是指:所有最常见的内容,例如 PDF、PPT、DOC、DOCX、RTF、HTML、“.PAGES”、“.KEYNOTE”、ODT 等等等
请推荐支持许多这些格式以及仅支持一种的软件包/服务。此外,是否有软件“堆栈”将许多包/服务“捆绑”在一起以转换为文本?
【问题讨论】:
标签: pdf docx doc plaintext odt