【问题标题】:Shopee XPath scraping follower count into Google SheetShopee XPath 将关注者数量抓取到 Google 表格中
【发布时间】:2023-03-17 15:51:01
【问题描述】:

我希望它显示的内容:产品和关注者

  1. 它将显示 29.10.2020 关注者和产品,然后它将在一天结束时停止更新
  2. 我能得到的只是追随者,我想删除单词(追随者)只需要数字
  3. 我无法获得产品数量我不知道该怎么做。

我知道的唯一公式:=index(IMPORTXML(B5,"//*[contains(@class,'shop-page')]"),9)

https://shopee.ph/fitme.ph

https://docs.google.com/spreadsheets/d/1QQyW8pJTgWzCmI__7ofhhteNSOTJ3fZ9uNy31Y1XTnM/

【问题讨论】:

    标签: html xpath google-sheets screen-scraping


    【解决方案1】:

    我相信你的目标如下。

    • 您希望使用电子表格的内置函数检索“产品”和“关注者”的值。

    当我看到 HTML 时,可以使用=IMPORTXML(B5,"//a[contains(@href,'followers')]") 直接检索“Followers”的值。但似乎“产品”的价值是由 Javascript 显示的。所以在这种情况下,我想通过解析 Javascript 的变量来检索这两个值。

    示例公式:

    =ARRAYFORMULA(SPLIT(TEXTJOIN(",",TRUE,IFERROR(REGEXEXTRACT(IMPORTXML(B5,"//script"),"item_count\\"":(\d+),\\""follower_count\\"":(\d+),"),"")),","))
    
    • https://shopee.ph/fitme.ph 的 URL 放在单元格“B5”中。
    • 这个公式的流程如下。
      1. 使用 IMPORTXML 检索 Javascript。
      2. 使用item_count\\"":(\d+),\\""follower_count\\"":(\d+),REGEXEXTRACT 的正则表达式检索“产品”和“关注者”的值。
      3. 使用TEXTJOINSPLIT 删除空行。

    结果:

    参考资料:

    【讨论】:

    • @Rojo Salas 感谢您的回复。我很高兴你的问题得到了解决。顺便说一句,在我的建议中,这些值是直接从 Javascript 的变量中检索的。当我对此进行多次测试时,我可以确认可以使用此答案中的正则表达式。但是如果变量的结构发生变化,可能需要修改正则表达式。请注意这一点。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-11-06
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多