【问题标题】:wget Pulling Data from Different Webpagewget 从不同的网页中提取数据
【发布时间】:2015-02-25 21:13:23
【问题描述】:

我目前正在使用 wget 从受密码保护的网站中提取数据。不幸的是,保存的数据不是来自正确的网页。例如,当我输入:

wget -O filename.txt --cookies=on --load-cookies=./cookies.txt http://www.draftexpress.com/blue/player.php?player=1086&year=2015&split=totals

它保存来自http://www.draftexpress.com/blue/player.php?player=1086的网页数据。有谁知道我可能做错了什么?我对 wget 还很陌生,所以任何帮助都将不胜感激!

【问题讨论】:

    标签: php cookies web-scraping wget


    【解决方案1】:

    您需要将用户名和密码传递给站点以进行身份​​验证。您目前得到的响应基本上是网站说您的访问被拒绝。您可以将wget --user= --password= 添加到您的参数列表中。

    【讨论】:

    • 那看起来像wget --user=username --password=password -O filename.txt --cookies=on --load-cookies=./cookies.txt http://www.draftexpress.com/blue/player.php?player=1086&year=2015&split=totals 吗?我试过了,结果一样
    • 你能发布你得到的输出吗?您也可以尝试 --ask-password 选项。所以省略 --password 并用 --ask-password 替换它,它应该提示您输入密码。不过,您仍需要使用 --user 选项。希望这会有所帮助。
    • --ask-password 方法也不起作用。我没有收到任何错误,因为我能够通过网站的登录页面,但正如我所提到的,保存到 filename.txt 文件中的页面源数据是 draftexpress.com/blue/player.php?player=1086 而不是 @987654322 @
    猜你喜欢
    • 1970-01-01
    • 2011-08-08
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-03-15
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多