介绍
-
什么是硒
- Web 浏览器操作自动化框架
0. 假设
- Python 已安装
1.准备文件
- 为 Selenium 创建一个目录和文件(什么都可以)
- 在 VSCode 等编辑器中打开
例子
(base) sample@SampleMBP ~ % cd Desktop
(base) sample@SampleMBP Desktop % mkdir Selenium
(base) sample@SampleMBP Desktop % cd Selenium
(base) sample@SampleMBP Selenium % touch sample.py
(base) sample@SampleMBP Selenium % pwd
/Users/username/Desktop/Selenium
(base) sample@SampleMBP Selenium % ls -l
total 0
-rw-r--r-- 1 username staff 0 10 2 20:58 sample.py
(base) sample@SampleMBP Selenium % code .
2.检查Pip3包版本
$ pip3 -V
执行结果示例
pip 22.2.2 from /Users/username/.pyenv/versions/3.10.6/lib/python3.10/site-packages/pip (python 3.10)
3.检查Python3版本
$ python3 -V
执行结果示例
Python 3.10.6
4.安装Chrome驱动
① 在浏览器上查看 Chrome 的版本
点击工具栏中的“关于 Google Chrome”
基于此版本的后续工作
② 下载chromedriver-binary
选择与您在浏览器中看到的版本最接近的版本。
在这种情况下,它将是ChromeDriver 106.0.5249.61。
- 您将被带到下面的屏幕,因此请根据您的 PC 选择 chromedriver 的 zip 文件进行下载。
- 在我的例子中,它是 M1Mac,所以选择
chromedriver_mac_arm64.zip。
- 在我的例子中,它是 M1Mac,所以选择
- 解压zip文件后,直接移动到你要执行的文件所在的目录下。
例子
③ 安装chromedriver-binary
-
这里选择与下载的 chromedriver-binary 相同的版本
- 这一次106.0.5249.61.0
- 在选定屏幕上复制并执行命令
$ pip install chromedriver-binary==106.0.5249.61.0
例子
(base) sample@SampleMBP Selenium % pip install chromedriver-binary==106.0.5249.61.0
Collecting chromedriver-binary==106.0.5249.61.0
Using cached chromedriver-binary-106.0.5249.61.0.tar.gz (5.0 kB)
Preparing metadata (setup.py) ... done
Using legacy 'setup.py install' for chromedriver-binary, since package 'wheel' is not installed.
Installing collected packages: chromedriver-binary
Running setup.py install for chromedriver-binary ... done
安装成功
无法打开“chromedriver”,因为无法验证开发者。如果出现请点击这里
5. 安装硒
$ pip3 install selenium --user
这时候如果收到アップグレード出来るよー。要検討してねー。这样的警告,请升级
$ pip install --upgrade pip
6.编写可执行文件
硒/sample.py
import chromedriver_binary
from selenium import webdriver
from selenium.webdriver.common.by import By
# 1. Qiitaの @rexid のプロフィールページにアクセス
driver = webdriver.Chrome()
driver.get('https://qiita.com/rexid')
print(driver.current_url)
# > https://qiita.com/rexid
# 2. 一番最初に表示されている記事のタイトルのURLを取得
article_links = driver.find_elements(By.XPATH, '//div[@class="css-1ebnygn"]/article/a')
print(article_links[0].get_attribute('href'))
# > https://qiita.com/rexid/items/一番最初に表示されている記事のURL
# 3. ブラウザを終了する
driver.quit()
使用开发者工具写作
7. 运行
$ python3 ファイル名
例子
(base) sample@SampleMBP Selenium % python3 sample.py
https://qiita.com/rexid
https://qiita.com/rexid/items/0c19ef88faeccc1c53ff
(base) sample@SampleMBP Selenium %
完成
联系
- [Scraping] 数据提取 → CSV 文件创建(全自动)
- [抓取] 获取并保存网站上的图像(全自动)
原创声明:本文系作者授权爱码网发表,未经许可,不得转载;
原文地址:https://www.likecs.com/show-308628225.html