【发布时间】:2011-06-01 10:33:51
【问题描述】:
我正在解析两个具有相似 HTML 标记的不同站点。我需要为此使用通用解析器。我的问题是一个站点的 HTML 格式为 div/ol/li/span/a,而另一个站点的格式为 div/ol/li/h3/a
我当前的解析器代码是
doc = Hpricot(open("http://test.com").read)
doc.search("div/ol/li/span/a").each do |a|
question = a.inner_html
ans_url = a.attributes['href']
puts question
puts answer_url
end
这适用于第一个站点。如何使用相同的代码解析我的第二个站点(div/ol/li/h3/a)。如何指定条件。我尝试的如下所示
doc = Hpricot(open("http://test.com").read)
doc.search("div/ol/li/span or h3/a").each do |a|
question = a.inner_html
ans_url = a.attributes['href']
puts question
puts answer_url
end
但这不起作用。谁能帮忙。
【问题讨论】:
标签: ruby-on-rails ruby hpricot