【问题标题】:PDF, PPT, DOC, etc to TEXTPDF、PPT、DOC等转TEXT
【发布时间】:2012-03-02 19:32:45
【问题描述】:

也许这些应该是单独的问题,每种格式一个,但是...

什么是最可靠的(任何语言)、二进制文件(适用于任何平台)或网络服务(免费或非免费) ) 用于多种“包含文本”的格式转换为纯文本

可靠是指几乎 100% 能够提取所有人类可读的文本,而不是提取“代码”或“标记”。

包含文本的格式是指:所有最常见的内容,例如 PDF、PPT、DOC、DOCX、RTF、HTML、“.PAGES”、“.KEYNOTE”、ODT 等等等

请推荐支持许多这些格式以及仅支持一种的软件包/服务。此外,是否有软件“堆栈”将许多包/服务“捆绑”在一起以转换为文本?

【问题讨论】:

    标签: pdf docx doc plaintext odt


    【解决方案1】:
    【解决方案2】:

    在 Java 中,Apache Tika toolkit 使用现有的解析器库从各种文档中检测并提取元数据和结构化文本内容。

    【讨论】:

      【解决方案3】:

      如果您使用的是 Ruby,请查看 Yomu。它是Apache TIKA 的包装器,支持多种文档格式,包括:

      • Microsoft Office OLE 2 和 Office Open XML 格式(.doc、.docx、.xls、.xlsx、.ppt、.pptx)
      • OpenOffice.org OpenDocument 格式(.odt、.ods、.odp)
      • Apple iWorks 格式
      • 富文本格式 (.rtf)
      • 可移植文档格式 (.pdf)

      【讨论】:

        【解决方案4】:

        你可以试试Extract Text

        从描述中:“从 PDF 和 Microsoft Word 文件等文档中提取文本。它将提取的文本保存在一个文件中。适用于 .pdf、.doc、.docx、.xls、.xlsx、.ppt、还有很多。”需要 Microsoft.NET Framework 4.0。

        【讨论】:

          猜你喜欢
          • 1970-01-01
          • 2016-05-17
          • 2021-08-27
          • 2014-09-25
          • 2011-06-18
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 2020-10-11
          相关资源
          最近更新 更多