【问题标题】:Scrape Data within HTML Tags Perl在 HTML 标签 Perl 中抓取数据
【发布时间】:2013-07-12 20:32:15
【问题描述】:

我正在编写一个网络爬虫,并且是 Perl 新手。我正在使用HTML::TreeBuilder 来获取我需要的数据,但我遇到了一个我不知道如何处理的案例。这是一些示例 HTML:

<div class="anything" val="20" name="matchup">someUniqueData</div>

我想从这个 HTML 标记中提取 val。我一直在使用findvalues() 完成大部分工作,但我不知道这是否可以从标签内部提取数据。我没有成功地掩盖了文档。这种刮擦有简单的解决方案吗?

【问题讨论】:

  • 向我们展示您尝试过的代码,我们可以从那里帮助您。您可能还想做更多的事情,而不是“修饰文档”。有关 HTML 解析的更多信息,请参阅htmlparsing.com/perl
  • 我什么都没试过,因为我知道如何尝试,findvalues(),获取标签外的数据。我查看了整个 TreeBuilder 文档,但没有看到可行的方法。当我可以询问其他人是否有此问题时,我不会搜索现有的每个 Perl 模块以寻找方法。所以,如果你不想提供帮助,那就去别的地方吧。
  • 查看 HTML::Element 中attr 的文档。

标签: html perl web-scraping www-mechanize


【解决方案1】:

你需要(使用HTML::TreeBuilder::XPath):

my ($val) = $tree->findvalues('//div[@class="anything"]/@val');

【讨论】:

  • CSS 选择器等效项:use Web::Query 'wq'; print wq('&lt;html&gt;&lt;div class="anything" val="20" name="matchup"&gt;someUniqueData&lt;/div&gt;')-&gt;find('div.anything')-&gt;attr('val');
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2017-05-16
  • 2012-07-18
  • 1970-01-01
  • 2018-07-30
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多