【问题标题】:Any good tool or library for recursive convert ANY files to tiff / images? [closed]任何用于将任何文件递归转换为 tiff / 图像的好工具或库? [关闭]
【发布时间】:2010-09-25 08:25:56
【问题描述】:

我们必须将所有内容转换为图像以进行存档。 DOC、HTML、电子邮件、ZIP、PDF、TXT 以及您可以在计算机上阅读/查看的任何文档。此外,它必须对所有在 zip 中嵌入的附件和文件进行递归。

我只知道 ImgMaker。这是最好的还是我可以有更好的? 我的老板让我搜索除了 ImgMaker 之外还有其他选择。

欢迎任何开源或盈利建议。

【问题讨论】:

    标签: windows image tiff file-conversion


    【解决方案1】:

    围绕这种类型的功能建立了一个完整的行业,并且有许多服务提供商对每个文档收取费用来进行这种类型的转换。您最好购买而不是自己构建。

    转换 Everything 的想法基本上是徒劳的,因为您需要一个可以渲染曾经创建的每种文件类型的单个程序(实质上是重新创建曾经编写过数据文件的每个软件并重新创建每个版本的每个版本)。此外,并非每种文件格式都具有直接呈现形式的格式。例如,您如何处理数据库文件、DLL、XML 文件、WAV 文件?

    如果您正在寻找可以合理处理大量格式的东西,有两个主要的 OEM 工具包,但两者都非常昂贵,而且都不直接支持 Java 平台。如果您有任何其他问题,我会使用前者。

    Stellent(现为 Oracle)OutsideIn:http://www.oracle.com/technologies/embedded/outside-in.html

    自治键视图:http://www.autonomy.com/content/Products/idol-modules-keyview-viewing/index.en.html

    另一个可能的选择是像Black Ice 这样的图像打印驱动程序,但它有几个问题,包括需要在运行代码的机器上的每个软件应用程序的副本,以及操作员关闭所有不可避免的对话框当您在本机应用程序中打开文件时会出现。此外,对于 Excel 电子表格之类的内容,您通常需要对电子表格进行一些手动调整以使打印输出看起来正确(否则您会在 tiff 中添加 900 页,而额外的一列不适合)

    【讨论】:

      【解决方案2】:

      我不知道这是否有帮助,因为听起来您想要完全自动化的东西,但是有许多伪打印机驱动程序可以创建 TIFF 图像作为输出。例如:

      http://sourceforge.net/projects/pdfcreator/

      【讨论】:

      • 我们已经考虑过了。这并不难。我们将拥有自己的完全控制权和微调能力。但随后我们将创建另一个自己的轮子用于自动化和嵌入附件递归。我们将被新问题困住(例如意外弹出)。
      • 我们不想专注于“如何制作图像”。我们希望将这些问题交给专家。我们想要的是“我给你一个文件,它返回一些 TIFF 页面或转换失败的原因”。
      【解决方案3】:

      嗯?您希望如何将 zip 存档转换为图像?像素应该显示什么?它应该是无损的,所以你可以转换回来吗?如果是为了存档,我猜这是一个要求,但听起来很奇怪。

      【讨论】:

      • 对于 zip,我们将所有文件转换为 zip。是的,这是一个要求。从我老板的角度来看:IT人员对文件的定义并不重要,里面的业务信息很重要。不丢失数据,这是我老板的目标。
      • 但是......如果这样做,肯定会丢失大量数据,对吧?如果你为一个文档做这件事,你只会得到文档的“渲染”版本,它会丢失所有的结构等等,不可能再回去了。疯了。
      • 文档渲染版本不变,但原版可能会因软硬件升级而发生变化,无法阅读。例如当您在 Word 6.0 中阅读时,很难准确地阅读 doc 文件。阅读器更改使渲染更改,这可能是不可读的,最坏的情况。
      【解决方案4】:

      tiff 图像之后会发生什么?假设您想以某种方式管理它们,在我看来,您最好寻找一些可以将这些文档类型作为输入并管理/存档(大概)大量图像的完整文档管理产品。会有的。

      否则你似乎是在重新发明轮子。

      如果你想要开源,比如Alfresco

      注意下面基于服务器的转换功能

      Alfresco 提供一种集成的 用于管理所有格式的存储库 跨图像管理的内容, 文件管理、网页内容 管理和电子邮件存储库。这 存储库是一个现代平台:

      • 任何数字资产的一个存储库
      • 业界最具可扩展性、基于标准的 JSR-170 内容存储库
      • 对 JSR-170、Web 服务和 REST 的标准支持
      • 高可用性、容错性和可扩展性 - 自动故障转移和集群
      • 基于 Web 服务、HTTP 和 HTTPS 的安全分布式捕获
      • Alfresco 业务政策规则的重复使用
      • 基于服务器的多种格式之间的转换,包括 TIFF、JPEG、GIF、PNG、MS-Office、PDF 和 FLASH
      • 元数据提取和管理
      • 自动分类框架

      【讨论】:

      • 我们不能。由于法律原因和文档格式的生命周期(任何人都可以打开 winword 1.x 文件吗?)。它必须是标准图像或 PDF。 (但我需要 PDF 阅读器,图片不需要)
      • 所以把所有东西都转换成图片。这就是我强调 Alfresco 转换格式的能力的重点。
      • 感谢您的建议。我去看看 Alfresco。对我来说真正的问题是:我们确实有自己的肮脏魔轮,我必须让它继续运转。我们都没有任何权利或角色来取代它。
      • 我刚刚检查了 Alfresco、文档及其来源。我很抱歉,但它不能帮助我。它确实使用 POI、HSSF 和 POIFS。它只支持非常有限的源和目标 mMimetype(例如 *.MSG 只能提取 *.TXT)。太多信息会丢失。还是谢谢。
      • 哦,好吧:(还有其他商业供应商(我认为 eCopy 是一个在图像处理方面很强大的供应商),不过我不太了解具体情况
      【解决方案5】:

      find 结合从 imagemagick takeit 转换来进行递归会让你走得很远。我想要支持你想要的所有东西,你需要编写一个调用正确程序的脚本。

      【讨论】:

        【解决方案6】:

        所提出的问题无法明智地回答。一个明显的解决方案是通过附加 .tiff 来简单地重命名每个文件。例如。你可以得到 ringtone.mp3.tiff。虽然很疯狂,但没有多少更好的方法可以将 .mp3 转换为 .tiff。

        请注意,这不是 IT 问题。企业假设一切都是图像,而音乐只是不存在的事物的微不足道的例子。

        (澄清一下 - 这是假设一个自动设置,例如出于法律原因存档传入的电子邮件。如果需要,您必须也存档传入的 MP3。如果您有人类参与,则此问题不属于一个编程论坛。)

        【讨论】:

        • 我认为它的意思很清楚。 “您可以在计算机上阅读/查看的任何文件”都在问题中。
        猜你喜欢
        • 1970-01-01
        • 2010-09-25
        • 1970-01-01
        • 2011-08-29
        • 2023-03-17
        • 2021-07-06
        • 2013-11-13
        • 1970-01-01
        • 2015-02-10
        相关资源
        最近更新 更多