【发布时间】:2012-06-03 16:13:21
【问题描述】:
我有一些看起来像这样的 HTML:
<dt>
<a href="#">Hello</a>
(2009)
</dt>
我已经将所有 HTML 加载到一个名为 record 的变量中。如果存在,我需要解析出年份,即 2009 年。
如何获取dt 标签内的文本,而不是a 标签内的文本?我用过record.search("dt").inner_text,这给了我一切。
这是一个微不足道的问题,但我还没有设法弄清楚。
【问题讨论】:
-
还要注意,实际上
dt内部有两个文本节点(除非您使用noblanks选项解析HTML):第一个文本节点是"\n ",在<a>之前,第二个文本节点是"\n (2009)\n"。