【发布时间】:2014-07-31 22:55:55
【问题描述】:
我查看了以前的类似问题,但更加困惑。
在 python 3.4 中,我想读取一个 html 页面作为字符串,给定 url。
在 perl 中,我使用 LWP::Simple 执行此操作,使用 get()。
一个 matplotlib 1.3.1 示例说:import urllib; u1=urllib.urlretrieve(url)。
python3找不到urlretrieve。
我尝试了u1 = urllib.request.urlopen(url),它似乎得到了一个HTTPResponse 对象,但我无法打印它或获取它的长度或索引它。
u1.body 不存在。我在 python3 中找不到HTTPResponse 的描述。
HTTPResponse 对象中是否有一个属性可以为我提供 html 页面的原始字节?
(与其他问题无关的内容包括urllib2,它在我的python、csv 解析器等中不存在)
编辑:
我在之前的问题中发现了部分(大部分)起作用的东西:
u2 = urllib.request.urlopen('http://finance.yahoo.com/q?s=aapl&ql=1')
for lines in u2.readlines():
print (lines)
我说“部分”是因为我不想阅读单独的行,而只想阅读一个大字符串。
我可以将这些行连接起来,但是打印的每一行都在前面加上一个字符“b”。
这是从哪里来的?
再一次,我想我可以在连接之前删除第一个字符,但这确实是个笨蛋。
【问题讨论】:
-
这是 Python 3 文档中对
HTTPResponseobjects 的描述。