Windows环境下基于python3 + selenium构建网络爬虫

文章目录

安装selenium
下载响应的driver
构建爬虫工程

安装selenium

由于我的Windows系统上安装的Anaconda，且包含两个版本python2和python3。因此，首先我使用cmd(命令行)切换到我需要使用的python3。切换的命令如下：

activate py3

接着，使用下面的命令下载selenium：

pip install -U selenium

下载过程即结果如下：
Windows环境下基于python3 + selenium构建网络爬虫

下载响应的driver

根据自己的浏览器进行选择：
Chrome: https://sites.google.com/a/chromium.org/chromedriver/downloads
Firefox: https://github.com/mozilla/geckodriver/releases
比如我使用的是火狐浏览器:
Windows环境下基于python3 + selenium构建网络爬虫

构建爬虫工程

需要采集的网页为：
Windows环境下基于python3 + selenium构建网络爬虫
采集的内容为课程的标题，如上图所示。
程序如下，其中解析部分使用的是BeautifulSoup

# -*- coding: utf-8 -*-
from selenium import webdriver
from time import sleep
from bs4 import BeautifulSoup
driver = webdriver.Firefox(executable_path='F:\program_work\python_work\TaobaoCrawler\driver\geckodriver.exe')
driver.get("http://www.w3school.com.cn/b.asp")
# 全屏幕打开
driver.maximize_window()
# 输出网页内容,这里选择一定的编码
page = driver.page_source.encode('GBK', 'ignore')
soup = BeautifulSoup(driver.page_source, "html.parser")
courses = soup.select('#course > ul > li')
for cour in courses:
    name = cour.text
    print(name)

print(page)
# 休息5秒
sleep(5)
driver.quit()

程序的输出结果如下所示：
Windows环境下基于python3 + selenium构建网络爬虫