【问题标题】:urllib2 - post requesturllib2 - 发布请求
【发布时间】:2012-03-02 23:11:40
【问题描述】:

我尝试使用 urllib2 执行一个简单的 POST 请求。 然而,服务器响应表明它接收到一个简单的 GET。我检查了传出请求的类型,但它设置为 POST。
为了检查服务器的行为是否像我期望的那样,我尝试使用连接到 url 的(前 POST-)数据执行 GET 请求。这得到了我预期的答案。
有人知道我误解了什么吗?

def connect(self):
    url = 'http://www.mitfahrgelegenheit.de/mitfahrzentrale/Dresden/Potsdam.html/'
    user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
    header = { 'User-Agent' : user_agent }

    values = {
      'city_from' : 69,
      'radius_from' : 0,
      'city_to' : 263,
      'radius_to' : 0,
      'date' : 'date',
      'day' : 5,
      'month' : 03,
      'year' : 2012,
      'tolerance' : 0
    }

    data = urllib.urlencode(values)
    # req = urllib2.Request(url+data, None, header) # GET works fine
    req = urllib2.Request(url, data, header)  # POST request doesn't not work

    self.response = urllib2.urlopen(req)

这似乎是一个像这里讨论的问题:Python URLLib / URLLib2 POST 但我很确定在我的情况下,尾部斜杠没有丢失。 ;)

我担心这可能是一个愚蠢的误解,但我已经想了好几个小时了!



编辑:打印的便利功能:

def response_to_str(response):
    return response.read()

def dump_response_to_file(response):
    f = open('dump.html','w')
    f.write(response_to_str(response))



编辑 2:分辨率:

我找到了一个工具来捕捉与网站的真实互动,http://fiddler2.com/fiddler2/。显然,服务器从输入表单中获取数据,重定向几次,然后使用简单地附加到 url 的数据发出 GET 请求。
urllib2 一切正常,我为滥用您的时间而道歉!

【问题讨论】:

  • 但是您期望的答案是什么?你怎么确定这不是服务器端问题?
  • 我希望您可以通过删除第 19 行的注释来观察到的行为(当然,注释掉第 20 行)。因为这让我得到了我想要的东西,所以我假设服务器工作正常。准确地说,我想在 3 月 5 日接收从德累斯顿到波茨坦的所有游乐设施,但我却在系统中获得了所有游乐设施。
  • 你也可以发布服务器端代码吗?
  • 很遗憾没有,因为我无权访问它。
  • 可能服务器不接受POST对该页面的请求。

标签: python urllib2 http-request


【解决方案1】:

您需要检查的事项:

  • 您确定发布到正确的 URL 吗?
  • 您确定可以在不登录的情况下检索结果吗?
  • 向我们展示不同帖子值的一些示例输出。

您可以使用 Firefox 的 Firebug 或 Google Chrome 的 DevTools 找到正确的帖子 URL。

我为您提供了一些支持 cookie 的代码,以便您可以先登录并使用 cookie 使用您的 post 参数发出后续请求。

最后,如果您可以向我们展示一些示例 HTML 输出,那会让生活更轻松。

这是我的代码,到目前为止,它对我来说非常可靠,可以 POST 到大多数网页,包括受 CSRF/XSRF 保护的页面(只要你能够正确找出 what post 和 where(要发布到哪个 URL)。

import cookielib
import socket
import urllib
import urllib2

url = 'http://www.mitfahrgelegenheit.de/mitfahrzentrale/Dresden/Potsdam.html/'
http_header = {
                "User-Agent" : "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.46 Safari/535.11",
                "Accept" : "text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,text/png,*/*;q=0.5",
                "Accept-Language" : "en-us,en;q=0.5",
                "Accept-Charset" : "ISO-8859-1",
                "Content-type": "application/x-www-form-urlencoded",
                "Host" : "www.mitfahrgelegenheit.de",
                "Referer" : "http://www.mitfahrgelegenheit.de/mitfahrzentrale/Dresden/Potsdam.html/"
                }

params = {
  'city_from' : 169,
  'radius_from' : 0,
  'city_to' : 263,
  'radius_to' : 0,
  'date' : 'date',
  'day' : 5,
  'month' : 03,
  'year' : 2012,
  'tolerance' : 0
}

# setup socket connection timeout
timeout = 15
socket.setdefaulttimeout(timeout)

# setup cookie handler
cookie_jar = cookielib.LWPCookieJar()
cookie = urllib2.HTTPCookieProcessor(cookie_jar)

# setup proxy handler, in case some-day you need to use a proxy server
proxy = {} # example: {"http" : "www.blah.com:8080"}

# create an urllib2 opener()
#opener = urllib2.build_opener(proxy, cookie) # with proxy
opener = urllib2.build_opener(cookie) # we are not going to use proxy now

# create your HTTP request
req = urllib2.Request(url, urllib.urlencode(params), http_header)

# submit your request
res = opener.open(req)
html = res.read()

# save retrieved HTML to file
open("tmp.html", "w").write(html)
print html

【讨论】:

    【解决方案2】:

    只是为了结束这个问题:
    问题确实是,服务器并不期望 POST 请求(尽管它应该考虑用例)。所以(再一次)这个框架没有被打破。 ;)

    【讨论】:

      【解决方案3】:

      尝试将这对添加到您的标题中:

         'Content-type': 'application/x-www-form-urlencoded'
      

      【讨论】:

      • 我只是在这里尝试使用您的确切代码,用wireshark观看它,它看起来像一个POST请求给我。 211 23.544957 10.0.0.6 62.146.53.71 HTTP 414 POST /mitfahrzentrale/Dresden/Potsdam.html/HTTP/1.1(应用程序/x-www-form-urlencoded)
      • 我认为它确实是一个 POST 请求,但它看起来像服务器重定向并将其更改为 GET ......你能试试我在第 19 行注释掉的 GET 请求并比较结果吗到 POST 请求之一,Dvir?我在上面的问题中添加了一个 dump-to-html 函数,所以它不应该花费太多时间。我真的很感激!至少会告诉我,我并没有因为盯着这件事发疯。 ;)
      • 我都运行了它们,结果不同。带有 POST 的页面约为 38k,带有 GET 的页面约为 24k。
      【解决方案4】:

      尝试从 URL 中删除尾部斜杠,如下所示:

      url = 'http://www.mitfahrgelegenheit.de/mitfahrzentrale/Dresden/Potsdam.html'
      

      您的POST 请求发送到的服务器脚本可能实际上并不支持POST 请求。

      【讨论】:

      • 删除尾部斜杠没有帮助(根据stackoverflow.com/a/3239251/978912,这似乎不是一个好主意)。如果没有 User-Agent 标头,服务器将不会与我交谈(以 403 响应),因为它显然不喜欢默认代理 urllib2 提交。
      • 在您的情况下,删除尾部斜杠是正确的,因为您已经限定了资源的绝对路径(假设 Potsdam.html 是文件而不是目录)。
      • 啊,谢谢你的解释!老实说,在我绝望中,我什至尝试了一个尾随问号,但也没有用。
      猜你喜欢
      • 2023-03-11
      • 1970-01-01
      • 2012-07-27
      • 2015-07-14
      • 1970-01-01
      • 1970-01-01
      • 2014-05-31
      • 1970-01-01
      • 2019-06-08
      相关资源
      最近更新 更多