从 html 源代码中提取文本/数据

【问题标题】：Extract text/data from html source code从 html 源代码中提取文本/数据
【发布时间】：2013-06-05 04:30:18
【问题描述】：

我正在尝试提取一段嵌套在 html 代码 <span class="code"> 和 </span> 之间的文本。这个想法是我需要存储在它们之间的信息。

如何自动从网页中提取这些信息？

【问题讨论】：

标签： html

【解决方案1】：

我假设你是用 Ruby 或 Javascript 来做的，因为你没有指定，而这些是我知道如何最好地做到这一点的语言。

在 Ruby 中，您首先要通过安装 Nokogiri gem

gem install nokogiri

你的代码看起来像这样：

require 'nokogiri'
require 'open-uri'

doc = Nokogiri::HTML(open('http://your-url.example.com/foo/bar))
value = doc.css('span.code');

p value

对于 Javascript，你可以使用 jQuery（不知道怎么做）。

var value = $('span.code').value;

【讨论】：