【发布时间】:2014-06-22 10:57:32
【问题描述】:
我想解析一个 HTML 页面,我只想获取 <h1> .. <h6> 标签内的所有文本。
我的实际脚本是:
doc = Nokogiri::HTML(open(s3_page_url).read)
doc.css('h1, h2').each do |link|
puts link.text
end
这是我的测试代码:
html = '<html><head><title><h1>foo</h1><h2>bar</h2></title><body><p>bar</p></body></html>'
doc = Nokogiri::HTML(html)
doc.css('h1').each do |link|
puts link.text
end
提示如下:
foo
问题是我想得到foo bar。
【问题讨论】:
-
您的代码有什么问题...?你的方法是正确的,我看出来了。
-
编辑了我的帖子。请再读一遍