【发布时间】:2014-08-10 13:42:34
【问题描述】:
我有一项工作需要从 URL 中提取 HTML 内容。并且在 HTML 文件中包含包含 XML 数据的 href 链接。我需要提取并解析它以获取 xml 数据。
目前我已经实现了从 html 中的 URL 中提取数据的代码。我的问题是如何从 HTML 中获取 xml。
HTML格式如下:
<!doctype html>
<html>
<head>
<meta charset="UTF-8">
<title>Directory Contents</title>
<link rel="stylesheet" href="style.css">
<script src="sorttable.js"></script>
</head>
<body>
<div id="container">
<h1>Directory Contents</h1>
<table class="sortable">
<thead>
<tr>
<th>Filename</th>
<th>Type</th>
<th>Size <small>(bytes)</small></th>
<th>Date Modified</th>
</tr>
</thead>
<tbody>
<tr class='file'>
<td><a href='/celldetails/loc/0808_0445_loc_results.xml'>0808_0445_loc_results.xml</a></td>
<td><a href='/celldetails/loc/0808_0445_loc_results.xml'>XML File</a></td>
<td><a href='/celldetails/loc/0808_0445_loc_results.xml'>0</a></td>
<td sorttable_customkey='20140808044504'><a href='/celldetails/loc/0808_0445_loc_results.xml'>Aug 8 2014 4:45 AM</a></td>
</tr>
我需要从 HTML 文件中提取“0808_0445_loc_results.xml”。
感谢任何帮助。
干杯 女士
【问题讨论】:
-
因为几乎没有 HTML 代码是真正有效的 XML,您可能希望使用 tagoup 之类的东西将您的 HTML 转换为有效的 XML。然后,您可以使用您选择的 XPath 处理器,并按照 Romski 的建议使用 XPath。