Shopee XPath 将关注者数量抓取到 Google 表格中答案

【问题标题】：Shopee XPath scraping follower count into Google SheetShopee XPath 将关注者数量抓取到 Google 表格中
【发布时间】：2023-03-17 15:51:01
【问题描述】：

我希望它显示的内容：产品和关注者

它将显示 29.10.2020 关注者和产品，然后它将在一天结束时停止更新
我能得到的只是追随者，我想删除单词（追随者）只需要数字
我无法获得产品数量我不知道该怎么做。

我知道的唯一公式：=index(IMPORTXML(B5,"//*[contains(@class,'shop-page')]"),9)

https://shopee.ph/fitme.ph

https://docs.google.com/spreadsheets/d/1QQyW8pJTgWzCmI__7ofhhteNSOTJ3fZ9uNy31Y1XTnM/

【问题讨论】：

标签： html xpath google-sheets screen-scraping

【解决方案1】：

我相信你的目标如下。

您希望使用电子表格的内置函数检索“产品”和“关注者”的值。

当我看到 HTML 时，可以使用=IMPORTXML(B5,"//a[contains(@href,'followers')]") 直接检索“Followers”的值。但似乎“产品”的价值是由 Javascript 显示的。所以在这种情况下，我想通过解析 Javascript 的变量来检索这两个值。

示例公式：

=ARRAYFORMULA(SPLIT(TEXTJOIN(",",TRUE,IFERROR(REGEXEXTRACT(IMPORTXML(B5,"//script"),"item_count\\"":(\d+),\\""follower_count\\"":(\d+),"),"")),","))

https://shopee.ph/fitme.ph 的 URL 放在单元格“B5”中。
这个公式的流程如下。
1. 使用 IMPORTXML 检索 Javascript。
2. 使用item_count\\"":(\d+),\\""follower_count\\"":(\d+), 和REGEXEXTRACT 的正则表达式检索“产品”和“关注者”的值。
3. 使用TEXTJOIN 和SPLIT 删除空行。

结果：

参考资料：

【讨论】：

@Rojo Salas 感谢您的回复。我很高兴你的问题得到了解决。顺便说一句，在我的建议中，这些值是直接从 Javascript 的变量中检索的。当我对此进行多次测试时，我可以确认可以使用此答案中的正则表达式。但是如果变量的结构发生变化，可能需要修改正则表达式。请注意这一点。