【问题标题】:Rails, Scraping from dynamic URLRails,从动态 URL 中抓取
【发布时间】:2014-06-27 22:30:45
【问题描述】:

最基本的我想抓取一个网站并渲染部分代码,比如所有的 H1 或其他东西。我过去使用过 Nokogiri 和 Mechanize,并且熟悉抓取的基础知识。过去我会像这样构建一个雷神任务

class Scrape < Thor
desc "cl_redding","Scrape Craigslist for Rentals"
def cl_redding

    require File.expand_path('config/environment.rb')

    require 'rubygems'

    require 'nokogiri'

    require 'open-uri'

    require 'mechanize'

    require 'yaml'

    require 'aws-sdk'

    require 'csv'

    require 'json'

    agent = Mechanize.new

    page = agent.get('http://redding.craigslist.org/search/apa?zoomToPosting=&catAbb=apa&query=&minAsk=&maxAsk=&bedrooms=&housing_type=&hasPic=1&excats=')

一切都很酷,它可以工作,虽然它只会抓取 craigslist,而且因为我专门通过页面调用 =,所以我要问的是,有没有人对我如何从网站上的输入框中抓取一个网站有任何建议?欢迎提供具体的帮助、教程、建议或资源。

【问题讨论】:

    标签: ruby-on-rails web-scraping


    【解决方案1】:

    我认为你的问题有点太笼统了。

    • 您需要启动一个 Rails 应用程序
    • 构建一个表单以接受要抓取的 url 输入 - 可能实现一个 Page 模型,该模型将存储要抓取的页面
    • 按照您在示例中的方式解析网址
    • 可能使用sidekiq之类的后端处理工具来避免前端刮擦
    • 存储结果并将其显示在 Page#show 上

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2013-03-28
      • 2016-05-24
      • 1970-01-01
      • 2019-03-27
      • 2016-05-23
      • 1970-01-01
      • 2021-07-18
      • 1970-01-01
      相关资源
      最近更新 更多