【问题标题】:wget an Amazon product page returning garbagewget 亚马逊产品页面返回垃圾
【发布时间】:2019-05-12 04:16:34
【问题描述】:

我正在尝试使用 wget 将亚马逊产品页面保存到文件中,但该文件包含所有垃圾。

wget -q -U Mozilla -e robots=off -O ofile https://www.amazon.com/gp/product/B06XGHP6S9

部分输出:

^_<8b>^H^@^@^@^@^@^@^@^TÇ1^N<83>0^L^Eн§0Þ=tè^@Jr<97>/â@Q<9a> l¤r{ÚåI/^L¹Ï~íJ«^?j
^?©¢-<91>µÉiLs<85>YdHë²ý<9e>á<90>ç<88>ï^KãV"çw[:§0<88><90>íSQøyè

不知道为什么会这样。

【问题讨论】:

  • 请发布响应标题。可能这是 gzip 压缩的。
  • Thomas,它是“iso-8859-1”。
  • 请提供所有标题,以便正确分析您的问题。

标签: curl amazon wget


【解决方案1】:

来自 Amazon 的文件的 WGET 检索 GZIP 文件。

例子:

wget "https://www.amazon.com/Erasers-Assortment-Colorful-Assorted-Homework/dp/B07RFMFDLC"
--2019-10-31 21:25:16--  https://www.amazon.com/Erasers-Assortment-Colorful-Assorted-Homework/dp/B07RFMFDLC

解决 www.amazon.com... 99.86.254.138

正在连接到 www.amazon.com|99.86.254.138|:443... 已连接。

HTTP 请求已发送,等待响应... 200 OK

长度:未指定 [text/html]

保存到:`B07RFMFDLC'

121,338 92.6K/s 在 1.3 秒内

2019-10-31 21:25:18 (92.6 KB/s) - 保存了“B07RFMFDLC” [121338]

                                                                                                                                                               file B07RFMFDLC

B07RFMFDLC:gzip 压缩数据,来自 FAT 文件系统(MS-DOS、OS/2、NT)

                                                                                                                                                                  `mv B07RFMFDLC B07RFMFDLC.gz` #Change file extension so gunzip works.

gunzip B07RFMFDLC.gz # 将从gzip文件中提取html

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2020-07-02
    • 2017-08-11
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-12-11
    相关资源
    最近更新 更多