在 Rails 应用程序中抓取 HTML答案

【问题标题】：Web scraping HTML in a Rails app在 Rails 应用程序中抓取 HTML
【发布时间】：2014-05-05 01:30:50
【问题描述】：

我正在尝试让我的 rails 应用程序获取网页的 HTML 源代码。

我想将所有 HTML 从像 /news_articles/7 这样的 URI 获取到一个字符串中。

我尝试使用 Nokogiri 之类的东西，但它似乎锁定了互斥锁。

这样做的目的是向亚马逊的SES发送一串HTML。

谢谢

【问题讨论】：

1) 我无法解析您的 ...获取所有 HTML 的 URI ...。 2) 什么是野切？ 3) 似乎 => 似乎 4) 原因 => 目的
你可以直接进入你的应用，右键点击view source?
您可能希望将 ActionMailer 与 SES 一起使用，而不是尝试将页面呈现为字符串。 stackoverflow.com/questions/4798437/…

标签： html ruby-on-rails ruby web-scraping amazon

【解决方案1】：

Nokogiri 与 Mechanize 结合使用将为您提供良好的服务。

宝石文件

gem 'nokogiri'
gem 'mechanize'

控制器

agent = Mechanize.new()
# allow the agent to follow redirects
agent.follow_meta_refresh = true
# get the desired page
page = agent.get('http://www.mysite.com/new_articles/7')
# output its html
page.body

Possible Duplicate

【讨论】：

我认为他试图在 Rails 请求周期内运行它。因此，他将死锁整个 Rails 应用程序。这是他的主要问题。
Jup 更有意义，我猜你提供了正确的链接