【发布时间】:2020-10-07 12:53:42
【问题描述】:
我是使用 python 进行网页抓取的菜鸟,我正在尝试使用 Selenium 和 phantomJS 检索网页的产品详细信息文本,因为当我使用“driver.page_source”时,此页面不显示呈现的 html,我的代码是这个:
url = 'https://www.jumbo.cl/frutas-y-verduras?page=1'
driver = webdriver.PhantomJS()
driver.get(url)
html = driver.page_source
不幸的是,这样做我检索了相同的源代码而没有可视化呈现的格式
我返回的代码摘录:
categoryId\\":\\"21\\",\\"productTitle\\":\\"Champiñón 200 g | Jumbo.cl\\",\\"metaTagDescription\\":\\"Encuentra Champiñón 200 g y la mejor variedad de Verduras en Jumbo.cl\\",\\"releaseDate\\":\\"2017-08-24T00:00:00\\",\\"clusterHighlights\\":{\\"325\\":\\"Dia de la fruta y verdura\\",\\"3554\\":\\"Vitrina 3554 limpia\\",\\"3862\\":\\"EXCLUSIVO 31082019\\",\\"3864\\":\\"DESPACHO 310819\\"
目标代码的提取(我可以将这段代码可视化到chrome控制台中,但是当我访问源代码时,页面会返回上面的代码)。
<li class="shelf-item">
<div class="shelf-product-island">
包含每个产品的详细信息值的容器位于“货架项目”类的列表中
【问题讨论】:
标签: python html selenium phantomjs headless