【发布时间】:2020-05-12 08:13:03
【问题描述】:
这是我的代码:
from selenium import webdriver
import pandas as pd
from lxml import etree
url = 'https://www.morningstar.com/stocks/xbsp/UGPA3/quote'
browser = webdriver.Chrome()
browser.get(url)
htmlpage = browser.page_source
doc = etree.HTML(htmlpage)
cap = doc.xpath(
'/html/body/div[1]/div/div/div[3]/main/div[2]/div/div/div[1]/sal-components/section/div/div/div[1]/div/div[2]/div/div/div/div[2]/ul/li[7]/div/div[2]/text()')
print(cap)
我正在尝试从网页上抓取市值。
在将 htmlpage 变量写入文件后,我发现问题在于它没有下载整个页面。它下载了 2228 KB,而我的浏览器下载了 2664 KB 的 .html 文件和一个不必要的文件夹。如果我使用浏览器手动保存页面并将其内容用作 etree.HTML() 的输入,它可以工作,但我想自动化。
【问题讨论】:
-
指定实际问题,而你只是想刮市值?
-
我需要从这个页面和类似页面中刮取许多值,但我猜我是否可以在这里刮取市值,我也可以做其他的。问题是我打印的 cap 变量是空的,因为我试图找到的 xpath 不在 Selenium 下载的范围内
标签: python selenium xpath web-scraping morningstar