【发布时间】:2015-01-15 06:22:07
【问题描述】:
对于我的一个网络项目,我需要从不同的网络资源中抓取数据。为了简单起见,我用一个例子来解释。
假设我想抓取他们制造商网站中列出的有关手机的数据。
http://www.somebrand1.com/mobiles/ . . http://www.somebrand3.com/phones/
我有大量的 URL 列表。 每个品牌的页面都有自己的浏览器 HTML 呈现方式。
我如何编写一个规范化的脚本来遍历那些列出网页 URL 的 HTML 并抓取数据而不考虑它们的格式?
否则我需要编写一个脚本来从每个模式中抓取数据吗?
【问题讨论】:
标签: python xpath web-scraping scrapy