【发布时间】:2014-10-03 00:01:06
【问题描述】:
我想从表格中的页面中抓取一些数据。所以我只关心表中的数据。早些时候我使用的是 Mechanize,但我发现有时会丢失一些数据,尤其是在表格的底部。谷歌搜索,我发现这可能是由于机械化没有处理 Jquery/Ajax。
所以我今天改用 Selenium。如何等待一个且只有一个表完全加载,然后使用 selenium 和 python 从该表中提取所有链接?如果我等待完整页面加载,则需要一些时间。我想确保只加载表中的数据。我当前的代码:
驱动程序 = webdriver.Firefox() 对于范围 (1, 2) 中的页面: driver.get("http://somesite.com/page/"+str(page)) 表 = driver.find_element_by_css_selector('div.datatable') 链接 = table.find_elements_by_tag_name('a') 对于链接中的链接: 打印链接.文本【问题讨论】:
标签: python selenium selenium-webdriver web-scraping