【发布时间】:2020-11-01 09:07:19
【问题描述】:
我正在尝试解析我正在抓取的site 的 HTML 输出的字符串。
我正在使用:
officer.race = doc.css("dd").map {|r| r.text.strip}
但这会在第一页输出军官的每个属性:
Rank POLICE OFFICER Race White Hispanic Gender F Number of Photos 0 Rank POLICE OFFICER Race White Gender M Number of Photos 0
等等。
我只需要第一页上所有 20 名军官的种族信息即可提供给我的军官类的种族属性访问器。据我所知,该网站的 HTML 并没有真正让我进一步指定。
有没有办法做到这一点?还是我看错了问题?
【问题讨论】:
-
欢迎来到 SO。询问时,重要的是要将 HTML 减少到尽可能小的块来演示问题,并将其包含在您的问题中。要求我们检索并浏览页面以查找您正在讨论的部分会浪费我们的时间,并且如果您指向页面的链接中断,那么这个问题将毫无意义。请查看“How to Ask”、“Stack Overflow question checklist”和“MCVE”及其所有链接页面,然后改进您的问题。
标签: html ruby web-scraping command-line-interface nokogiri