【发布时间】:2011-10-17 09:45:52
【问题描述】:
我有两个文件,XML 和一个 HTML,需要从这些文件中提取特定模式的数据。
我的 XML 文件格式很好,我可以使用 readline 读取一行并在标签之间搜索数据。
if($line =~ /\<tag1\>$varvalue\<\/tag1\>/)`
但是,对于我的 HTML,它的代码是我见过的最糟糕的代码之一,文件如下:
<div class="theater">
<h2>
<a href="/showtimes/university-village-3" >**University Village 3**</a></h2>
<div class="address">
<i>**3323 South Hoover Street, Los Angeles CA 90007 | (213) 748-6321**</i>
</div>
</div>
<div class="mtitle">
<a href="/movie/dream-house-2011" title="Dream House" onmouseover="mB(event, 771204354);" >**Dream House**</a>
<span>**(PG-13 , 1 hr. 31 min.)**</span>
</div>
<div class="times">
**1:00 PM,**
</div>
现在我需要从这个文件中选择以粗体显示的数据。
我可以使用 Perl 正则表达式从这个文件中搜索数据。
【问题讨论】:
-
我没有看到任何
b标签。**-delimited 块是否应该以粗体显示?