【发布时间】:2010-03-28 13:35:31
【问题描述】:
在我的工作地点,我们有一个遗留文档管理系统,由于各种原因,开发人员现在不支持该系统。我被要求研究提取此系统中包含的文档,以便最终导入新的第 3 方系统。
通过跟踪和进程监控,我确定文档图像(主要是 tiff 文件)存储在多个 1.5GB 文件中。这些文件似乎是从特定偏移量读取,然后写入 tmp 文件,然后通过 Web 应用程序提供给客户端,然后删除。
我想我正在寻找有关如何检查这些包含 tiff 图像的大文件并最终将它们提取并写入单个文件的建议。
【问题讨论】:
-
“开发人员不支持”并没有真正说明源代码是否可用。是吗?如果是这样,那么您应该能够破解它以读取这些文件,这将成为您的新转换器的基础。
-
遗憾的是,源代码不可用,应用程序调用各种非托管 dll 来访问这些文件中包含的数据。从到目前为止我收集的信息中,我确定执行了数据库查询(sp_getDoc
),应用程序必须使用一些返回的数据来计算大文件的哪些字节包含正在请求的实际 tiff 文件.返回的两个数字字段看起来可能与文件的开始和结束位置有关。 -
为什么不能通过从网络应用程序自动请求所有文件来获取文件?