【发布时间】:2015-01-22 18:16:52
【问题描述】:
我有一个在 html 中有很多隐藏标签的网站。 我已经粘贴了下面的源代码。 挑战在于隐藏标签上有两种类型,
1.style="display:none"的人
2. 他们在每个td 标签下都有提到的样式列表。
它会随着每个 td 标签而变化。 对于下面的示例,它具有以下样式,
hLcj{display:none}
.J9pE{display:inline}
.kUC-{display:none}
.Dzkb{display:inline}
.mXJU{display:none}
.DZqk{display:inline}
.rr9s{display:none}
.nGF_{display:inline}
所以class=hLcj, kUC, mXJU, rr9s,etc的元素是隐藏元素
我想提取整个 tr 的文本,但排除这些隐藏标签。 我一直在摸索几个小时,但仍然没有成功。
任何帮助将不胜感激。谢谢
我正在使用bs4 和python 2.7
<td class="leftborder timestamp" rel="1416853322">
<td>
<span>
<style>
.hLcj{display:none}
.J9pE{display:inline}
.kUC-{display:none}
.Dzkb{display:inline}
.mXJU{display:none}
.DZqk{display:inline}
.rr9s{display:none}
.nGF_{display:inline}
</style>
<span class="rr9s">35</span>
<span></span>
<div style="display:none">121</div>
<span class="226">199</span>
.
<span class="rr9s">116</span>
<div style="display:none">116</div>
<span></span>
<span class="Dzkb">200</span>
<span style="display: inline">.</span>
<span style="display:none">86</span>
<span class="kUC-">86</span>
<span></span>
120
<span class="kUC-">134</span>
<div style="display:none">134</div>
<span class="mXJU">151</span>
<div style="display:none">151</div>
<span class="rr9s">154</span>
<span class="Dzkb">.</span>
<span class="119">36</span>
<span class="kUC-">157</span>
<div style="display:none">157</div>
<span class="rr9s">249</span>
<div style="display:none">249</div>
</span>
</td>
<td> 7808</td>
【问题讨论】:
标签: python html python-2.7 beautifulsoup html-parsing