文章目录
安装selenium
由于我的Windows系统上安装的Anaconda,且包含两个版本python2和python3。因此,首先我使用cmd(命令行)切换到我需要使用的python3。切换的命令如下:
activate py3
接着,使用下面的命令下载selenium:
pip install -U selenium
下载过程即结果如下:
下载响应的driver
根据自己的浏览器进行选择:
Chrome: https://sites.google.com/a/chromium.org/chromedriver/downloads
Firefox: https://github.com/mozilla/geckodriver/releases
比如我使用的是火狐浏览器:
构建爬虫工程
需要采集的网页为:
采集的内容为课程的标题,如上图所示。
程序如下,其中解析部分使用的是BeautifulSoup
# -*- coding: utf-8 -*-
from selenium import webdriver
from time import sleep
from bs4 import BeautifulSoup
driver = webdriver.Firefox(executable_path='F:\program_work\python_work\TaobaoCrawler\driver\geckodriver.exe')
driver.get("http://www.w3school.com.cn/b.asp")
# 全屏幕打开
driver.maximize_window()
# 输出网页内容,这里选择一定的编码
page = driver.page_source.encode('GBK', 'ignore')
soup = BeautifulSoup(driver.page_source, "html.parser")
courses = soup.select('#course > ul > li')
for cour in courses:
name = cour.text
print(name)
print(page)
# 休息5秒
sleep(5)
driver.quit()
程序的输出结果如下所示: