【问题标题】:Python urlfetch returning bad dataPython urlfetch 返回错误数据
【发布时间】:2014-04-18 09:02:41
【问题描述】:

注意:此问题已被编辑以反映新信息,包括以前的标题“如何使用 Python Boto 库在 Amazon S3 中存储 PDF”。

我正在尝试使用 urlfetch 保存 PDF 文件(如果将 url 放入浏览器,它会提示“另存为”对话框),但存在某种编码问题。

urlfetch结果中出现很多未知字符,如:

urlfetch.fetch(url).text

结果有这样的字符:s�*��E����
而实际文件中的相同内容如下所示:sÀ*ÿ<81>E®<80>Ùæ

所以这大概是某种编码问题,但我不知道如何解决它。我使用的 urlfetch 版本是 1.0

对于它的价值,我一直在测试的 PDF 在这里:http://www.revenue.ie/en/tax/it/forms/med1.pdf

【问题讨论】:

  • 直接下载S3会不会pdf坏了?
  • 如果我下载我放入 S3 的 PDF,是的 - 它已损坏。
  • 我刚刚意识到一些重要的事情。我认为这与 S3 或 boto 无关。从 urlfetch 记录结果的内容后,看起来问号字符无处不在。所以这是urlfetch的问题......我要更新问题。

标签: python pdf urlfetch


【解决方案1】:

我切换到 urllib 而不是 urlfetch 例如

import urllib
result = urllib.urlopen(url)

...一切似乎都很好。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2012-01-12
    • 2013-11-15
    • 1970-01-01
    • 1970-01-01
    • 2019-05-02
    • 1970-01-01
    • 2020-08-04
    • 2017-08-22
    相关资源
    最近更新 更多