如何在不获取 html 的情况下获取文件？答案

【问题标题】：sajkdhbfjsdvcjsdvj如何在不获取 html 的情况下获取文件？
【发布时间】：2022-06-10 17:34:08
【问题描述】：

我正在尝试使用以下方式下载file：

wget https://huggingface.co/distilbert-base-uncased/blob/main/vocab.txt

我希望得到 .txt 文件，但是，我得到的是页面 html。

我根据下载整个网站的建议here 和wget -m <url> 尝试了wget --max-redirect=2 --trust-server-names <url>，以及其他一些也不起作用的变体。

【问题讨论】：

标签： wget

【解决方案1】：

wget https://huggingface.co/distilbert-base-uncased/blob/main/vocab.txt

这点 wget 到 HTML 页面，即使它有 .txt 后缀。访问它后，我发现在 raw 下有指向文本文件本身的链接，您应该可以按照以下方式与 wget 一起使用

wget https://huggingface.co/distilbert-base-uncased/raw/main/vocab.txt

如果您需要在不下载的情况下显示文件的真实类型，您可以使用--spider 选项，在这种情况下

wget --spider https://huggingface.co/distilbert-base-uncased/blob/main/vocab.txt

给出的输出包含

Length: 7889527 (7,5M) [text/html]

和

wget --spider https://huggingface.co/distilbert-base-uncased/raw/main/vocab.txt

给出的输出包含

Length: 231508 (226K) [text/plain]

【讨论】：