【问题标题】:Extracting XML from HTML file from URL in java从Java中的URL从HTML文件中提取XML
【发布时间】:2014-08-10 13:42:34
【问题描述】:

我有一项工作需要从 URL 中提取 HTML 内容。并且在 HTML 文件中包含包含 XML 数据的 href 链接。我需要提取并解析它以获取 xml 数据。

目前我已经实现了从 html 中的 URL 中提取数据的代码。我的问题是如何从 HTML 中获取 xml。

HTML格式如下:

<!doctype html>
<html>

<head>
  <meta charset="UTF-8">
  <title>Directory Contents</title>
  <link rel="stylesheet" href="style.css">
  <script src="sorttable.js"></script>
</head>

<body>

  <div id="container">

    <h1>Directory Contents</h1>

    <table class="sortable">
      <thead>
        <tr>
          <th>Filename</th>
          <th>Type</th>
          <th>Size <small>(bytes)</small></th>
          <th>Date Modified</th>
        </tr>
      </thead>
      <tbody>

          <tr class='file'>
            <td><a href='/celldetails/loc/0808_0445_loc_results.xml'>0808_0445_loc_results.xml</a></td>
            <td><a href='/celldetails/loc/0808_0445_loc_results.xml'>XML File</a></td>
            <td><a href='/celldetails/loc/0808_0445_loc_results.xml'>0</a></td>
            <td sorttable_customkey='20140808044504'><a href='/celldetails/loc/0808_0445_loc_results.xml'>Aug 8 2014 4:45 AM</a></td>
          </tr>

我需要从 HTML 文件中提取“0808_0445_loc_results.xml”。

感谢任何帮助。

干杯 女士

【问题讨论】:

  • 因为几乎没有 HTML 代码是真正有效的 XML,您可能希望使用 tagoup 之类的东西将您的 HTML 转换为有效的 XML。然后,您可以使用您选择的 XPath 处理器,并按照 Romski 的建议使用 XPath。

标签: java html xml


【解决方案1】:

您可以使用 xpath 来查找包含文本“0808_0445_loc_results.xml”的 href 节点。然后使用节点的值构造一个 URL 来加载 XML。

//@href[contains(.,'0808_0445_loc_results.xml')]

【讨论】:

    猜你喜欢
    • 2019-01-07
    • 1970-01-01
    • 2015-06-21
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-07-09
    • 1970-01-01
    相关资源
    最近更新 更多