【发布时间】:2014-04-18 09:02:41
【问题描述】:
注意:此问题已被编辑以反映新信息,包括以前的标题“如何使用 Python Boto 库在 Amazon S3 中存储 PDF”。
我正在尝试使用 urlfetch 保存 PDF 文件(如果将 url 放入浏览器,它会提示“另存为”对话框),但存在某种编码问题。
urlfetch结果中出现很多未知字符,如:
urlfetch.fetch(url).text
结果有这样的字符:s�*��E����
而实际文件中的相同内容如下所示:sÀ*ÿ<81>E®<80>Ùæ
所以这大概是某种编码问题,但我不知道如何解决它。我使用的 urlfetch 版本是 1.0
对于它的价值,我一直在测试的 PDF 在这里:http://www.revenue.ie/en/tax/it/forms/med1.pdf
【问题讨论】:
-
直接下载S3会不会
pdf坏了? -
如果我下载我放入 S3 的 PDF,是的 - 它已损坏。
-
我刚刚意识到一些重要的事情。我认为这与 S3 或 boto 无关。从 urlfetch 记录结果的内容后,看起来问号字符无处不在。所以这是urlfetch的问题......我要更新问题。