【问题标题】:Extract text/data from html source code从 html 源代码中提取文本/数据
【发布时间】:2013-06-05 04:30:18
【问题描述】:

我正在尝试提取一段嵌套在 html 代码 <span class="code"></span> 之间的文本。这个想法是我需要存储在它们之间的信息。

如何自动从网页中提取这些信息?

【问题讨论】:

  • 你用什么语言解析它? Javascript?红宝石?请更具体。
  • 几乎所有语言都提供此功能
  • 例如,using Python and BeautifulSoup 您将拥有:print soup('span', class='code').text

标签: html


【解决方案1】:

我假设你是用 Ruby 或 Javascript 来做的,因为你没有指定,而这些是我知道如何最好地做到这一点的语言。

在 Ruby 中,您首先要通过安装 Nokogiri gem

gem install nokogiri

你的代码看起来像这样:

require 'nokogiri'
require 'open-uri'

doc = Nokogiri::HTML(open('http://your-url.example.com/foo/bar))
value = doc.css('span.code');

p value

对于 Javascript,你可以使用 jQuery(不知道怎么做)。

var value = $('span.code').value;

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-11-21
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多