【问题标题】:Web scraping HTML in a Rails app在 Rails 应用程序中抓取 HTML
【发布时间】:2014-05-05 01:30:50
【问题描述】:

我正在尝试让我的 rails 应用程序获取网页的 HTML 源代码。

我想将所有 HTML 从像 /news_articles/7 这样的 URI 获取到一个字符串中。

我尝试使用 Nokogiri 之类的东西,但它似乎锁定了互斥锁。

这样做的目的是向亚马逊的SES发送一串HTML。

谢谢

【问题讨论】:

  • 1) 我无法解析您的 ...获取所有 HTML 的 URI ...。 2) 什么是野切? 3) 似乎 => 似乎 4) 原因 => 目的
  • 你可以直接进入你的应用,右键点击view source?
  • 您可能希望将 ActionMailer 与 SES 一起使用,而不是尝试将页面呈现为字符串。 stackoverflow.com/questions/4798437/…

标签: html ruby-on-rails ruby web-scraping amazon


【解决方案1】:

NokogiriMechanize 结合使用将为您提供良好的服务。

宝石文件

gem 'nokogiri'
gem 'mechanize'

控制器

agent = Mechanize.new()
# allow the agent to follow redirects
agent.follow_meta_refresh = true
# get the desired page
page = agent.get('http://www.mysite.com/new_articles/7')
# output its html
page.body

Possible Duplicate

【讨论】:

  • 我认为他试图在 Rails 请求周期内运行它。因此,他将死锁整个 Rails 应用程序。这是他的主要问题。
  • Jup 更有意义,我猜你提供了正确的链接
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2015-06-27
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多