【发布时间】:2012-10-26 01:18:46
【问题描述】:
我正在尝试通过我的 perl 脚本解析 HTML 文件。我正在使用一个名为 HTML::TreeBuilder 的模块。
这是我目前所拥有的:
use HTML::TreeBuilder;
my $tree = HTML::TreeBuilder->new;
$tree->parse_file("sample.html");
foreach my $anchor ($tree->find("p")) {
print $anchor->as_text, "\n";
}
它工作正常。我在< p> 标签中得到了所有东西。
sample.html 文件:
< td>Release Version:< /td>< td> 5134< /td>< /tr>
< tr class="d0">< td>Executed By:< /td>< td>spoddar< /td>< /tr>
< tr class="d1">< td> Duration:< /td>< td>0 Hrs 0 Mins 0 Secs < /td>< /tr>
< tr class="d0">< td>#TCs Executed:< /td>< td>1< /td>< /tr>
我希望在通过发布版本时打印5134。
以同样的方式,当我通过 Execute By 时,我希望打印 spoddar。
这些不是 HTML 标签。但是有什么办法可以得到呢?
【问题讨论】:
-
在决定打印什么时是否需要应用任何规则?你也应该打印
0 Hrs 0 Mins 0 Secs吗?
标签: html perl parsing html-parsing perl-module