【发布时间】:2009-07-12 22:17:55
【问题描述】:
我正在编写一些代码,用于为页面上的两个 css 类抓取页面。我只是这样使用 Hpricot 搜索方法:
webpage.search("body").search("div.first_class | div.second_class")
...对于找到的每个项目,我创建一个对象并将其放入一个数组中,这很好用,除了一件事。
搜索将遍历整个 html 页面,并在每次遇到“.first_class”时将一个对象添加到一个数组中,然后它会再次遍历文档寻找“.second_class”,最终的数组包含所有在数组中以错误顺序搜索的项目,即所有“.first_class”对象,然后是所有“.second_class”对象。
有没有一种方法可以让我一次性搜索文档并在每次遇到一个指定的类时将一个对象添加到数组中,从而为我提供一个按顺序排列的项目数组在我正在抓取的页面上?
非常感谢任何帮助。谢谢
【问题讨论】:
标签: ruby-on-rails ruby arrays search hpricot