【发布时间】:2014-06-27 22:30:45
【问题描述】:
最基本的我想抓取一个网站并渲染部分代码,比如所有的 H1 或其他东西。我过去使用过 Nokogiri 和 Mechanize,并且熟悉抓取的基础知识。过去我会像这样构建一个雷神任务
class Scrape < Thor
desc "cl_redding","Scrape Craigslist for Rentals"
def cl_redding
require File.expand_path('config/environment.rb')
require 'rubygems'
require 'nokogiri'
require 'open-uri'
require 'mechanize'
require 'yaml'
require 'aws-sdk'
require 'csv'
require 'json'
agent = Mechanize.new
page = agent.get('http://redding.craigslist.org/search/apa?zoomToPosting=&catAbb=apa&query=&minAsk=&maxAsk=&bedrooms=&housing_type=&hasPic=1&excats=')
一切都很酷,它可以工作,虽然它只会抓取 craigslist,而且因为我专门通过页面调用 =,所以我要问的是,有没有人对我如何从网站上的输入框中抓取一个网站有任何建议?欢迎提供具体的帮助、教程、建议或资源。
【问题讨论】:
标签: ruby-on-rails web-scraping