【发布时间】:2015-08-07 11:19:38
【问题描述】:
这听起来几乎像是一个笑话,但我向你保证这是真实的生活。互联网上有一个网站,你们都用过,它不相信 css 类。一切都直接在元素的样式标签中定义。太可怕了。
但我的问题是它也使 html 非常难以解析。我必须继续的结构看起来像这样:
<td>
<a name="<random_string>"></a>
<div style="generic-style, used by other elements">
<div style="similarly generic style">{some_stuff}</div>
</div>
<a name="<random_string>"></a>
...
</td>
基本上,我有这些a 标签构成了评论的边界,他们唯一的定义信息是他们名字的随机字符串。我实际上并不关心锚标签,但我想使用 xpath 获取它们之间的评论。
我研究了sibling queries,但它们似乎不太适合交替边界。我还研究了 xpath 查询的Kayessian method,它(除了有一个很棒的名字)似乎只适合抓取特定的 div,而不是锚标记之间的所有 div。
关于如何在这里获取 div 有什么想法吗?
【问题讨论】:
-
@JoshBurgess 谢谢你的慰问。猜猜是哪个网站?
-
应该是谷歌评论吧?
-
@JoshBurgess,不,西班牙亚马逊。
-
真的吗,西班牙亚马逊?谷歌也有同样的问题。不过,美国亚马逊的结构并非如此。无论如何,你有我的同情。
-
@JoshBurgess,是的,它似乎是唯一存在此问题的亚马逊替代语言版本。其余的都很合理。