【发布时间】:2014-01-10 14:51:28
【问题描述】:
这是我第一次尝试网络抓取。我正在尝试使用 Beautiful Soup 从 Raymond James 的网站上抓取电话号码。一个例子是http://www.raymondjames.com/office_locator_display.asp?addressline=90210
每当我使用 BeautifulSoup 时,我都无法在 HTML 中找到合适的信息。
import urllib2
from bs4 import BeautifulSoup
url='http://www.raymondjames.com/office_locator_display.asp?addressline=90210'
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.93 Safari/537.36')]
page_to_scrape=opener.open(url).read()
soup=BeautifulSoup(page_to_scrape.decode('utf-8','ignore'))
产生的输出不包含我需要的信息。我提供的 URL 似乎没有指向位置框架。
我不使用 Python 来处理网络数据的大量工作,所以我不知道如何将 Beautiful Soup 引导到“框架”中以获取联系信息。
【问题讨论】:
-
我相信额外的 javascript 代码会在浏览器加载页面后加载地址列表。您必须使用浏览器开发工具分析页面。寻找可能包含地址的额外网络请求,并模拟 那些。
标签: python beautifulsoup screen-scraping