【发布时间】:2018-06-14 08:42:29
【问题描述】:
在寻找长期存储大量数据(主要来自数值计算)的好选择时,我开始使用 xz 存档格式 (tar.xz)。与更常见的tar.gz 相比(两者都具有合理的压缩选项),那里的默认 LZMA 压缩提供了明显更好的存档大小(对于我的数据类型)。
然而,关于长期使用xz 的安全性的第一次谷歌搜索,到达了有标题的following web-page(来自lzip 的开发者之一)
Xz 格式不适合长期存档
列出几个原因,包括:
-
xz是一种容器格式,而不是简单的压缩数据,前面有必要的标头 -
xz格式碎片 - 不合理的扩展性
- 标头设计不佳,缺少字段长度保护
- 4 字节对齐和到处使用填充
- 无法将尾随数据添加到已创建的存档中
-
xz错误检测存在多个问题 - 没有数据恢复选项
虽然有些担忧似乎有些人为,但我想知道是否有任何可靠的理由不使用xz 作为长期存档的存档格式。
如果我选择xz作为文件格式,我应该注意什么?
(我想,即使 30 年后,访问xz 程序本身也不应该成为问题)
几个注意事项:
- 存储的数据是数值计算的结果,其中一些在不同的会议和期刊上发表。虽然存储结果并不一定意味着研究可重复性,但它是一个重要组成部分。
- 虽然使用更标准的
tar.gz甚至是普通的zip可能是更明显的选择,但能够将存档大小缩减约 30% 对我来说非常有吸引力。
【问题讨论】:
标签: storage archive file-format reproducible-research xz