【问题标题】:How to not get contents of child elements within HtmlUnit?如何不获取 HtmlUnit 中子元素的内容?
【发布时间】:2011-05-03 17:52:52
【问题描述】:

我有以下几点:

<th>
Q4/10
<br>
<span> Nov 30, 2010 </span>
</th>

我想得到Q4/10,但不是接下来的日期。我不确定如何在 HtmlUnit 中执行此操作。我知道我可以用空格分割这两个元素,然后取第一个空格之前的所有内容,但我正在寻找基于标签本身的东西。

【问题讨论】:

    标签: screen-scraping htmlunit


    【解决方案1】:

    如果你知道你想要的文本在任何子元素之前,你可以抓住它的第一个子元素,它会包含你的文本和一些空格:

    HtmlTableHeaderCell th = ...
    System.err.println( th.getFirstChild().toString().trim() ) ;
    

    更通用的解决方案是循环遍历th 的子元素,寻找文本节点,并忽略子元素。

    【讨论】:

    • 谢谢罗德尼。我不知道。我认为子元素只是低于我所寻求的元素。我会检查一下。谢谢。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-05-06
    • 2013-03-08
    相关资源
    最近更新 更多