【发布时间】:2015-09-07 08:51:51
【问题描述】:
首先让我告诉你我来自哪里。我有一个字符串,它是来自网站的 html 代码,我使用 JSOUP 得到了这个。无论如何,html都在字符串中,我可以将它打印到文本文件中。所以我试图从这段代码中获取歌曲,每首歌曲都使用相同的“标签”
这是我打印到的文本文件中的一行
<div class="title" itemprop="name">
Wrath
</div> </td>
在记事本中它看起来像一条线,但是当您复制并粘贴它时,它看起来像这样。所以我想要的是中间的愤怒,所以我尝试使用其他堆栈帖子的帮助创建一个模式来找到它:Java regex to extract text between tags
这是我的代码中与此有关的部分
Pattern p = Pattern.compile( "<div class=\"title\" itemprop=\"name\">(.+?)</div> </td>");
Matcher m = p.matcher( html );
while( m.find()) {
quote.add( m.group( 1 ));
}
当它运行时,它显示 ArrayList 引用中没有任何内容。这可能不起作用,因为它计算了两者之间的空间。有什么想法吗?
【问题讨论】:
-
尝试使用XPath instead.