【问题标题】:how to get text from <a href> in nested html elements using jericho?如何使用 jericho 从嵌套 html 元素中的 <a href> 获取文本?
【发布时间】:2014-02-20 18:34:18
【问题描述】:

我有一些这样的html代码

<div class="itm hasOverlay lastrow">
<a id="3:LE343SPABGLIANID" class="itm-link itm-drk trackingOnClick" title="League Sepatu Casual Geof S/L LO - Hitam/Biru" href="league-sepatu-casual-geof-sl-lo-hitambiru-68166.html" rel="-standard|">
</a>
<div class="itm-overlay itm-group-mainbox-with-group"></div>
</div>

我应该怎么做才能在

&lt;a href="league-sepatu-casual-geof-sl-lo-hitambiru-68166.html"&gt;获得文本league-sepatu-casual-geof-sl-lo-hitambiru-68166.html

【问题讨论】:

  • 对不起,未格式化的代码 sn-p,我不知何故无法正确处理。我找不到代码格式化程序..

标签: java html parsing jericho-html-parser


【解决方案1】:

这应该很简单……

Source source=new Source(new StringReader(inputString));
Element aElement = source.getFirstElement(HTMLElementName.A);
String href = aElement.getAttributeValue("href");
System.out.println(href);

...当然,这做了一些假设:即,inputStringonly 您发布的字符串(并且这部分未包含在其他标签中),并且这部分只包含一个链接(a)。

(如果这些假设无效,则必须以某种方式识别这个特定的div 和正确的a 标签。例如,通过搜索具有class="itm hasOverlay lastrow" 属性的div 和@987654328 @ 类 class="itm-link itm-drk trackingOnClick" - 在任何情况下,都必须了解更多关于应该从中提取此信息的文档的实际结构

【讨论】:

    猜你喜欢
    • 2021-09-04
    • 2021-12-01
    • 2019-07-06
    • 2021-05-15
    • 1970-01-01
    • 2020-08-25
    • 1970-01-01
    • 2021-10-21
    • 1970-01-01
    相关资源
    最近更新 更多