硒刮javascript答案

【问题标题】：selenium scraping javascript硒刮javascript
【发布时间】：2017-06-18 14:00:00
【问题描述】：

我正计划制作一个网站，该网站可以从许多网站上抓取大量每日更新的 URL (JavaScript)。我做了一些研究，发现 selenium，已经编写了一些代码来从网站中提取 URL

from selenium import webdriver
chrome_path = r"C:\Users\hessien\Desktop\chromedriver_win32\chromedriver.exe"
driver = webdriver.Chrome(chrome_path)
driver.get("http://example.com")
driver.find_element_by_xpath("""//*[@id="header"]/div/div[2]/div[3]/ul/li/label/a""").click()
element = driver.find_element_by_xpath("""//*[@id="s"]""")
element.send_keys("example")
driver.find_element_by_xpath("""//*[@id="searchform"]/button/span""").click()
driver.find_element_by_xpath("""//*[@id="contenedor"]/div/div[2]/div[1]/div[2]/article/div[2]/div[1]/a""").click()
driver.find_element_by_xpath("""//*[@id="playex"]/div[1]""").click()
elem = driver.find_element_by_xpath("""//*[@id="mediaplayer_media"]/video""").get_attribute("src");
print elem

但经过一些搜索，我发现 selenium 主要用作测试框架，而不是用于抓取和爬行！.. 我的问题是 selenium 可以完成这项工作吗？如果是，如何在 HTML 按钮中执行 python 代码？我也在使用 Django。如果没有，你能推荐任何可以完成任务的东西吗？

【问题讨论】：

标签： javascript python django selenium

【解决方案1】：

如果你真的想做一个 scraper，我推荐你使用 Beautiful soup，这是一个 Python 库，用于从 HTML 和 XML 文件中提取数据。您可以将 python 脚本与 django 集成，单击即可触发。以下是链接。

https://pypi.python.org/pypi/beautifulsoup4

【讨论】：

它可以抓取启用 javascript 的网站吗？
你可以使用scrapy和splash进行javascript网站抓取