使用谷歌翻译使用 selenium 进行网页抓取答案

【问题标题】：Web-scraping with selenium using google translate使用谷歌翻译使用 selenium 进行网页抓取
【发布时间】：2020-08-30 17:18:37
【问题描述】：

我正在尝试抓取世界各地的多个网页。所以，我想使用谷歌翻译扩展翻译网站，然后使用 selenium 抓取页面。

我做了一些研究并想出了如何在运行 selenium 时添加扩展。

1)download google translate extension

2)Create .crx file

3)add extension to selenium

但我不知道如何自动执行扩展（默认情况下，它什么都不做）

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

option = webdriver.ChromeOptions()
option.add_extension('./translate.crx')
driver = webdriver.Chrome(executable_path = "./chromedriver", chrome_options = option)
driver.get("naver.com")
WebDriverWait(driver, 3).until(EC.presence_of_element_located((By.TAG_NAME, "body")))

''' @@@@ Here I want something like@@@@
driver.execute_extension("translate this page")
'''

print driver.find_element_by_tag_name("body").text
driver.quit()

此外，我发现该扩展程序无法翻译原始 HTML，因此我可能不得不使用不同的方法进行抓取。（也许通过 ctrl-a、ctrl-c、ctrl-v 代替 by_tag_name("body")）

你能给我一些建议吗？

提前致谢

【问题讨论】：

标签： python selenium web-scraping screen-scraping google-translate

【解决方案1】：

driver.execute_extension

在我看来，如果您可以通过 Selenium 打开扩展程序（请参阅an example in C#）。然后您可以通过 Selenium 点击翻译此页面链接：

快捷方式

使用Google Translate API。

【讨论】：