【发布时间】:2021-02-10 17:28:34
【问题描述】:
背景:
我正在开发一个用于学习目的的简单网络爬虫。我正在尝试从有关 Ruby 编程语言的维基百科页面中抓取主标题<h2> 和子标题<h3> 元素。我可以单独访问其中的每一个,但我想以可以替换任何 Wikipedia 文章的方式编写我的代码。
主要问题:
我正在寻找一种方法来列出位于页面上 <h2> 元素之间的所有 <h3> 元素。有没有办法直接通过 Nokogiri 做到这一点,或者它会涉及使用一些 Ruby 作为解决方法?
基本上,我希望能够列出主标题和随附的子标题,但我看不到将它们分组的方法,因为 Wikipedia 没有将它们分组到 html 中。
感谢您的宝贵时间。
-M
【问题讨论】:
标签: html ruby parsing nokogiri