【问题标题】:Python Selenium change urlPython Selenium 更改网址
【发布时间】:2016-12-20 23:13:36
【问题描述】:
from selenium import webdriver

driver = webdriver.Chrome()

driver.get("http://www.rezultati.com/utakmica/Q7ckEKB0/#detalji")

print (driver.current_url)

我有链接列表:

http://www.rezultati.com/utakmica/ll33wwis/#detalji http://www.rezultati.com/utakmica/zLgwjGzm/#detalji

...

在这个程序中,从所有这些链接中抓取数据的最佳方法是什么(使用循环?)? 请向我推荐一些示例或文档。

【问题讨论】:

  • 你看过 BeautifulSoup 吗?

标签: python selenium


【解决方案1】:

请检查下面的代码,这里我无法测试(或获取数据)

from bs4 import BeautifulSoup
from selenium import webdriver


class ReadBooksInfo(object):
    def __init__(self):
        self.driver = webdriver.Chrome()
        # self.driver = webdriver.Firefox()

    def read_HTML(self, url):
        self.driver.get(url)
        html = self.driver.page_source
        soup = BeautifulSoup(html.text, 'html.parser')
        print(soup)
        # check for your expected tag here,
        rows = soup.find_all('tr')
        print(rows)


test = ReadBooksInfo()

urls = ["http://www.rezultati.com/utakmica/Q7ckEKB0/#detalji",
        "http://www.rezultati.com/utakmica/ll33wwis/#detalji",
        "http://www.rezultati.com/utakmica/zLgwjGzm/#detalji"]
for i, url in enumerate(urls):
    print(str(i) + "::" + url)
    test.read_HTML(url)

【讨论】:

    【解决方案2】:

    我使用了 urllib2 和 BeautifulSoup。但是没有硒。看看我在 Github 上的代码。代码并不理想和完美,但我废弃了所需的数据。 Github repo

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-01-05
      • 1970-01-01
      • 2014-10-02
      • 1970-01-01
      • 2011-09-17
      • 2021-08-19
      • 1970-01-01
      • 2012-01-22
      相关资源
      最近更新 更多