【发布时间】:2020-09-04 17:52:23
【问题描述】:
我正在尝试学习网络抓取,尽管我检查了文档中的示例和堆栈中的一些问题,但我无法使我的代码正常工作。
我要抓取的网站有职位列表,但它的结构上没有模式或固定的类,几乎每个元素都有自己的 id 和单独的类。当我使用检查器从锚标记中查找 innerHTML 的 xPath 时,这就是我得到的:
使用火狐:
/html/body/div[1]/div/main/div[3]/div/div/section/ul/li[1]/article/header/div/div[1]/h2/a
使用 Brave 浏览器:
//*[@id="16542952"]/section/div/header/h2/a
相同的 url,相同的元素,结果中的第一个职位。
我想循环浏览页面并从职位列表中的某些元素中获取文本,例如职位名称、描述等。
我在 Python 和 Firefox/geckodriver 中使用 selenium
【问题讨论】:
-
我已经在 Firefox 中签入它提供相同的 xpath。在复制 xpath 时勇敢地选择“复制完整 xpath”
标签: python selenium xpath css-selectors webdriverwait