【问题标题】:IMPORTHTML or IMPORTXML to collect data from a siteIMPORTHTML 或 IMPORTXML 从站点收集数据
【发布时间】:2019-11-20 00:46:38
【问题描述】:
【问题讨论】:
标签:
xpath
web-scraping
google-sheets
google-sheets-formula
google-sheets-importxml
【解决方案1】:
您要抓取的表在 JavaScript 控制下,因此无法抓取。
您可以从该网站获取到 Google 表格的所有信息是:
=ARRAY_CONSTRAIN(IMPORTDATA(
"https://www.onlinebettingacademy.com/stats/team/brazil/operrio-pr/13217#tab=t_squad&team_id=13217"); 10000; 10)
【解决方案2】:
因为您尝试抓取的页面是使用 Javascript 呈现的 - 即您要抓取的内容不在标记中,您将无法使用 Google 表格之类的工具。
但是...您可以使用“无头浏览器”轻松抓取此内容。你几乎会使用一个浏览器(没有 UI),它会使用 Javascript 呈现你的 URL,然后一旦页面加载,你就可以使用 XPATH 等查询数据。
查看Puppeteer 获取可用于此任务的 JS 框架示例。