【问题标题】:selenium scraping javascript硒刮javascript
【发布时间】:2017-06-18 14:00:00
【问题描述】:

我正计划制作一个网站,该网站可以从许多网站上抓取大量每日更新的 URL (JavaScript)。我做了一些研究,发现 selenium,已经编写了一些代码来从网站中提取 URL

from selenium import webdriver
chrome_path = r"C:\Users\hessien\Desktop\chromedriver_win32\chromedriver.exe"
driver = webdriver.Chrome(chrome_path)
driver.get("http://example.com")
driver.find_element_by_xpath("""//*[@id="header"]/div/div[2]/div[3]/ul/li/label/a""").click()
element = driver.find_element_by_xpath("""//*[@id="s"]""")
element.send_keys("example")
driver.find_element_by_xpath("""//*[@id="searchform"]/button/span""").click()
driver.find_element_by_xpath("""//*[@id="contenedor"]/div/div[2]/div[1]/div[2]/article/div[2]/div[1]/a""").click()
driver.find_element_by_xpath("""//*[@id="playex"]/div[1]""").click()
elem = driver.find_element_by_xpath("""//*[@id="mediaplayer_media"]/video""").get_attribute("src");
print elem

但经过一些搜索,我发现 selenium 主要用作测试框架,而不是用于抓取和爬行!.. 我的问题是 selenium 可以完成这项工作吗?如果是,如何在 HTML 按钮中执行 python 代码?我也在使用 Django。 如果没有,你能推荐任何可以完成任务的东西吗?

【问题讨论】:

    标签: javascript python django selenium


    【解决方案1】:

    如果你真的想做一个 scraper,我推荐你使用 Beautiful soup,这是一个 Python 库,用于从 HTML 和 XML 文件中提取数据。 您可以将 python 脚本与 django 集成,单击即可触发。 以下是链接。

    https://pypi.python.org/pypi/beautifulsoup4

    【讨论】:

    • 它可以抓取启用 javascript 的网站吗?
    • 你可以使用scrapy和splash进行javascript网站抓取
    猜你喜欢
    • 2020-08-23
    • 2011-03-24
    • 1970-01-01
    • 1970-01-01
    • 2019-08-31
    • 2016-01-25
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多