【问题标题】:Trying to scrape data off of dividendinvestor.com试图从reduceinvestor.com 上抓取数据
【发布时间】:2020-06-21 06:00:15
【问题描述】:

我正在尝试使用 Google 表格导入一些关于股息历史的股票数据。

我试图抓取的数据来自这个页面:https://www.dividendinvestor.com/dividend-quote/

(例如https://www.dividendinvestor.com/dividend-quote/ibmhttps://www.dividendinvestor.com/dividend-quote/msft

对于其他网站,我已经能够结合使用 INDEX 和 IMPORTHTML 从表中获取数据。例如,如果我想从 finviz.com 获取 IBM 的“Forward P/E”,我这样做:

=index(IMPORTHTML("http://finviz.com/quote.ashx?t=IBM","table", 11),11,10)

抓取表 11 并向下走 11 行和 10 多列以获得我想要的数据。

但是,我似乎无法从www.dividendinvestor.com/dividend-quote/ibm 站点找到任何要通过 IMPORTHTML 导入的表。

我正在尝试将值导入“连续股息增加”字段的右侧。

在这种情况下,我想要实现的输出是“19 年”。

我也尝试过 IMPORTXML,但我尝试使用 XPATH (using this path: "/html/body/div[3]/div/div/div[2]/div/div/div[2]/div[2]/div[2]/span[20]" ) 的所有操作也都失败了。

有什么帮助吗?期望的最终结果是,我将通过附加不同的股票代码来动态构建股息投资者.com URL,并获得股息支付连续增加多少年的结果。

【问题讨论】:

    标签: xpath web-scraping google-sheets google-sheets-formula google-sheets-importxml


    【解决方案1】:

    @player0 提出了很好的解决方案。如果您不想使用INDEX,可以使用:

    =IMPORTXML("https://www.dividendinvestor.com/dividend-quote/"&B3,"//a[.='Consecutive Dividend Increases']/following::span[1]")
    

    【讨论】:

    • 太棒了!谢谢!这样可行!你知道网上有什么很棒的资源可以让我了解更多吗?
    • 对于 XPath,w3schools.com/xml/xpath_intro.asp 是一个很好的起点。然后,练习。:) 要测试您的表达,请使用 ChroPath 插件或在线服务,如 freeformatter.com/xpath-tester.htmlxpather.com
    • 那么,如果我想从该页面上的另一个字段中查找数据,我可以简单地将 //a[.='Consecutive Dividend increases']/ 部分更改为具有不同的文本吗?跨度>
    • 是的。但有时您还需要更改元素名称。例如,要获取“当前股息金额”,您必须输入//span[.='Dividend Amount Current']/following::span[1]
    • 现在给出 N/A,导入的内容为空。
    【解决方案2】:

    尝试:

    =INDEX(IMPORTXML("https://www.dividendinvestor.com/dividend-quote/ibm/", 
     "//span[@class = 'data']"), 9, 1)
    

    【讨论】:

    • 太棒了!谢谢!这样可行!你知道网上有什么很棒的资源可以让我了解更多吗?
    • 不需要...只需右键单击“19 年”...选择“检查元素”...然后复制它显示的任何内容 - i.stack.imgur.com/huJof.png
    • player0,这不是我的经验。当我只是复制“Xpath”时,我得到这样的东西:``` /html/body/div[2]/div/div[2]/div[2]/div/div[2]/div/div /div/div[4]/div/div[2]/div/strong ``` 然后它只是 N/A 错误
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-07-08
    • 1970-01-01
    • 1970-01-01
    • 2020-05-26
    相关资源
    最近更新 更多