【问题标题】:Trying to scrape data试图抓取数据
【发布时间】:2020-07-14 21:26:01
【问题描述】:

我是这方面的新手,所以想获得一些指导。我正在尝试在 VBA 中开发一些代码,以降低雅虎金融的期权价格。到目前为止,这是我能够汇总的内容:

Option Explicit

Sub Pull_Option_Price()

    Dim URL As String
    Dim IE As Object
    Dim HTML As Object
    Dim OptionPrice As Object

    Set IE = CreateObject("InternetExplorer.Application")
    
    IE.Visible = True

    URL = "https://ca.finance.yahoo.com/quote/SQ200717C00065000?p=SQ200717C00065000"

    IE.Navigate URL

    Do Until IE.ReadyState = 4: DoEvents: Loop

    Set HTML = CreateObject("HTMLFile")

    Debug.Print HTML.Document.getElementbyClassName("Trsdu(0.3s) Fw(b) Fz(36px) Mb(-4px) D 
    (ib)").innerText
    
    Set IE = Nothing

End Sub

每次我运行代码时,都会在该行收到运行时错误 438:

Debug.Print HTML.Document.getElementbyClassName("Trsdu(0.3s) Fw(b) Fz(36px) Mb(-4px) D(ib)").innerText

从目前为止我在各个论坛上阅读的内容来看,我只能在 IE 版本较低(低于 9)的情况下使用 .getElementsbyClassName,而我的 IE 版本是 11,无论出于何种原因,我都无法访问我认为的参考资料将允许我以另一种方式做到这一点。

我还能如何抓取网站以获取期权价格?

【问题讨论】:

  • 没有名为 getElementbyClassName 的函数 - 它是 getElementsByClassName(复数),因为多个元素可以具有相同的类名。
  • 您可以使用 Power Query 检索该页面。有两个表格显示摘要列中的各种信息。

标签: excel vba web-scraping


【解决方案1】:

就像 braX 在他的评论中写的 getElementsByClassName() 生成一个节点集合。集合的元素由括号中的 css 类名指定。每个元素都有一个像数组一样的索引。第一个索引是 0。您的节点集合只有一个元素。所以你必须使用索引 0 从集合中获取它。

另一个问题是HTML.Document。这不起作用,因为HTML 是您使用Set HTML = CreateObject("HTMLFile") 行创建的空html 文档,并且您也引用了document。可以直接在IE中使用文档。

右行是:
Debug.Print IE.Document.getElementsByClassName("Trsdu(0.3s) Fw(b) Fz(36px) Mb(-4px) D(ib)")(0).innerText

你可以用IE,但是很慢:

Sub Pull_Option_Price()

  Dim url As String
  Dim IE As Object

  url = "https://ca.finance.yahoo.com/quote/SQ200717C00065000?p=SQ200717C00065000"
  
  Set IE = CreateObject("InternetExplorer.Application")
  IE.Visible = True
  IE.Navigate url
  Do Until IE.ReadyState = 4: DoEvents: Loop
  
  Debug.Print IE.Document.getElementsByClassName("Trsdu(0.3s) Fw(b) Fz(36px) Mb(-4px) D(ib)")(0).innerText
End Sub

更快的选择:
如果页面上不需要加载动态内容,可以使用更快的 xml http 请求。一个限制是getElementsByClassName() 只能通过与 xhr 的早期绑定来工作。因此,您需要以下两个对库的 excel 引用:
Microsoft HTML 对象库
Microsoft XML, v6.0

Sub Pull_Option_Price_xhr()

  Dim xhr As MSXML2.XMLHTTP60
  Dim htmlDoc As MSHTML.HTMLDocument
  Dim url As String
  
  url = "https://ca.finance.yahoo.com/quote/SQ200717C00065000?p=SQ200717C00065000"
  
  Set xhr = New MSXML2.XMLHTTP60
  Set htmlDoc = New MSHTML.HTMLDocument
  
  xhr.Open "GET", url, False
  xhr.Send
  htmlDoc.body.innerHTML = xhr.responseText
  
  Debug.Print htmlDoc.getElementsByClassName("Trsdu(0.3s) Fw(b) Fz(36px) Mb(-4px) D(ib)")(0).innerText
End Sub

【讨论】:

  • @Chris_A 如果我的回答解决了您的问题,请将其标记为解决方案。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2020-09-03
  • 2010-12-25
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多