【问题标题】:The Website: http://cnpj.info/2609063 don't work curl or wget (Bash Script)网站:http://cnpj.info/2609063 不能使用 curl 或 wget(Bash 脚本)
【发布时间】:2019-11-17 00:00:50
【问题描述】:

命令 wget 或 curl 不适用于网站:http://cnpj.info/2609063 并且无法返回网页代码。

curl -H 'Accept-Encoding: br,gzip,deflate Host: cnpj.info Pragma: no-cache Cache-Control: no-cache Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3 Upgrade-Insecure-Requests: 1 Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3 --user-agent 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36' -X GET "http://cnpj.info/0101000"

我们尝试了 wget http://cnpj.info/0101000,但没有任何工作正常。

我们希望以 HTML 格式返回网页。

【问题讨论】:

    标签: bash shell curl libcurl


    【解决方案1】:

    我发现你的脚本有两个问题。

    1. 标头字段后缺少单引号 (')。
    2. 修复此问题后,您将获得 gzip 压缩的 html 文本。将 curl 输出通过管道传输到 gunzip 将产生所需的结果。

    尝试以下操作:

    curl -H 'Accept-Encoding: br,gzip,deflate Host: cnpj.info Pragma: no-cache Cache-Control: no-cache Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,/;q=0.8,application/signed-exchange;v=b3 Upgrade-Insecure-Requests: 1 Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,/;q=0.8,application/signed-exchange;v=b3'
     --user-agent 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36' -X GET "http://cnpj.info/0101000" | gunzip -
    

    【讨论】:

    • 错误返回:

      欧盟访问者的 GDPR 和 cookie 通知

      本网站尊重访问者的隐私,不收集任何个人数据,但仅使用 cookie 来显示 (1) 此消息一次欧盟访问者的一天,以及 (2) 向所有查看带有 CNPJ 数据的第三页的访问者显示 omnibox 使用提示(葡萄牙语)
    • 返回看起来被阻塞的代码不是页面的内容。
    • 在我的答案中运行代码时,我得到了大约 10K 的 html 文件。用浏览器查看这个文件,我看到的和cnpj.info/0101000 完全一样。顺便说一句,这个网站对每天的请求数量有限制。
    • 使用--compressed而不是硬编码Accept-Encoding:header,并为每个要设置的header设置一个-H,而不是一次设置。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-10-02
    • 2019-02-04
    • 1970-01-01
    相关资源
    最近更新 更多