【问题标题】:How to decompress a warc.zst file?如何解压warc.zst 文件?
【发布时间】:2021-09-21 18:35:26
【问题描述】:

我正在尝试解压缩从此处下载的 WARC ZST 文件:https://archive.org/details/archiveteam_yahooanswers_20210422220546_c4fac540

我尝试了命令zstd -d yahooanswers_20210422220546_c4fac540.1619026173.megawarc.warc.zst,但我得到了这个错误: 73.megawarc.warc.zst : 0 MB... 73.megawarc.warc.zst : Decoding error (36) : Dictionary mismatch 我怎样才能找到上述字典或有任何替代方法?

【问题讨论】:

    标签: archive webarchive warc zstd


    【解决方案1】:

    字典可以在warc的第一个可跳过的帧中找到。

    要提取字典 OrIdow6,请编写以下代码来提取它:https://transfer.notkiska.pw/inline/TXlRo/xtract.py

    您需要 python3、zstd 和 zstandard

    python ./xtract.py /path/to/megawarc.warc.zst > dict

    那你就可以了

    zstd -d /path/to/megawarc.warc.zst -D dict

    您应该能够使用标准的 Warc 查看工具查看 megawarc

    【讨论】:

    • 我几乎可以肯定这只适用于 Linux 而不是 Windows。文件“xtract.py”似乎特别关注 Linux。
    • 这个脚本使用的是哪个版本的 zstd 和 zstandard?运行后出现此错误: Traceback (last recent call last): File "xtract.py", line 8, in from _zstd_cffi import ffi, lib ModuleNotFoundError: No module named '_zstd_cffi'
    猜你喜欢
    • 2021-03-15
    • 2017-01-19
    • 1970-01-01
    • 2016-11-26
    • 2015-11-05
    • 2019-07-17
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多