【问题标题】:sajkdhbfjsdvcjsdvj如何在不获取 html 的情况下获取文件?
【发布时间】:2022-06-10 17:34:08
【问题描述】:

我正在尝试使用以下方式下载file

wget https://huggingface.co/distilbert-base-uncased/blob/main/vocab.txt

我希望得到 .txt 文件,但是,我得到的是页面 html。

我根据下载整个网站的建议herewget -m <url> 尝试了wget --max-redirect=2 --trust-server-names <url>,以及其他一些也不起作用的变体。

【问题讨论】:

    标签: wget


    【解决方案1】:
    wget https://huggingface.co/distilbert-base-uncased/blob/main/vocab.txt
    

    这点 wget 到 HTML 页面,即使它有 .txt 后缀。访问它后,我发现在 raw 下有指向文本文件本身的链接,您应该可以按照以下方式与 wget 一起使用

    wget https://huggingface.co/distilbert-base-uncased/raw/main/vocab.txt
    

    如果您需要在不下载的情况下显示文件的真实类型,您可以使用--spider 选项,在这种情况下

    wget --spider https://huggingface.co/distilbert-base-uncased/blob/main/vocab.txt
    

    给出的输出包含

    Length: 7889527 (7,5M) [text/html]
    

    wget --spider https://huggingface.co/distilbert-base-uncased/raw/main/vocab.txt
    

    给出的输出包含

    Length: 231508 (226K) [text/plain]
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2023-03-17
      • 2011-01-25
      • 2014-05-18
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多