【发布时间】:2020-08-30 17:18:37
【问题描述】:
我正在尝试抓取世界各地的多个网页。所以,我想使用谷歌翻译扩展翻译网站,然后使用 selenium 抓取页面。
我做了一些研究并想出了如何在运行 selenium 时添加扩展。
1)download google translate extension
但我不知道如何自动执行扩展(默认情况下,它什么都不做)
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
option = webdriver.ChromeOptions()
option.add_extension('./translate.crx')
driver = webdriver.Chrome(executable_path = "./chromedriver", chrome_options = option)
driver.get("naver.com")
WebDriverWait(driver, 3).until(EC.presence_of_element_located((By.TAG_NAME, "body")))
''' @@@@ Here I want something like@@@@
driver.execute_extension("translate this page")
'''
print driver.find_element_by_tag_name("body").text
driver.quit()
此外,我发现该扩展程序无法翻译原始 HTML,因此我可能不得不使用不同的方法进行抓取。 (也许通过 ctrl-a、ctrl-c、ctrl-v 代替 by_tag_name("body"))
你能给我一些建议吗?
提前致谢
【问题讨论】:
标签: python selenium web-scraping screen-scraping google-translate