【发布时间】:2011-11-16 12:52:37
【问题描述】:
所以我正在做一些数据分析,我需要从数百个 HTML 和 SHTML 文件中提取页面标题、面包屑、h1 标签。
这些标签的格式如下(意思是里面的东西,和面包屑):
<title>Mapping a Drive: Macintosh OSX < Mapping a Drive < eHelp < Cal Poly Pomona</title>
<p><!-- InstanceBeginEditable name="breadcrumb" --><a href="../index.html">eHelp</a> » <a href="index.shtml">Mapping a Drive</a> » Mac OS X<!-- InstanceEndEditable --></p>
<h1><a name="contentstart" id="contentstart"></a><!-- InstanceBeginEditable name="page_heading" --><a name="top" id="top"></a>Mapping a Drive:<span class="goldletter"> Macintosh </span>OS X <!-- InstanceEndEditable --></h1>
得到这些标签后,我想进一步提取标题的第一部分Mapping a Drive: Macintosh OSX,面包屑的最后一部分Mac OS X和整个h1 Mapping a Drive: Macintosh OSX
知道如何实现吗?
【问题讨论】:
-
日复一日,关于使用正则表达式解析 HTML 的问题不断涌现。如果你还没有阅读this :-)
-
@tchrist 比喻留下的东西告诉你如何到达那里,以免迷路。
-
@chown 明喻≠隐喻
-
@tchrist:它是来自站点根目录的路径,它告诉您如何到达正在查看的页面。类似
amazon > electronics > game console > PS3 -
@chown,并不是说我们使用的是 english.stackexchange 或其他任何东西,而是您链接到的来源说明喻使用了“like”或类似的词。您对面包屑的描述没有使用任何类型的东西。这不是一个比喻。