【问题标题】:Python: Can't get urllib2 to correctly read a webpagePython:无法让 urllib2 正确读取网页
【发布时间】:2013-12-22 15:25:15
【问题描述】:

我正在尝试获取

的完整网页

'http://www.bloomberg.com/markets/economic-calendar/'

但由于某种原因,我找不到将链接作为字符串返回的函数。 我想将彭博页面上的所有公告转换为 CSV 文件,但我不确定如何。 CSV 文件将包含以下内容:

周一 12.2 盖洛普美国消费者支出衡量标准 [报告][Bullet8:30 AM ET

本·伯南克演讲 美国东部时间上午 8:30

PMI 制造业指数 [报告][djStar]东部时间上午 8 点 58 分

ISM制造指数 [报告][星]美国东部时间上午 10:00

建筑开支 [报告][djStar]美国东部时间上午 10:00

建筑开支 [报告][djStar]美国东部时间上午 10:00

4 周账单公告 [报告][Bullet11:00 AM ET

(这只是从网站上复制和粘贴的)。

什么是最好的使用方式或最好的库?

【问题讨论】:

标签: python-2.7 web-scraping urllib2 urllib bloomberg


【解决方案1】:

由于您要求提供有关网络抓取的教程,因此您基本上应该(按给定顺序)查找

  1. Url 检索(即从给定 url 的网页中读取)[参考 urllib library]
  2. Html 解析(理解 html 并快速访问所需内容)[参考 Beautifulsoup v4]
  3. 处理获取的数据并在您的情况下转储到csv 文件。 [参考csv库]

【讨论】:

    猜你喜欢
    • 2014-11-11
    • 2013-08-20
    • 2012-07-12
    • 1970-01-01
    • 2022-01-22
    • 1970-01-01
    • 1970-01-01
    • 2015-09-19
    • 2012-03-09
    相关资源
    最近更新 更多