【发布时间】:2019-01-11 05:32:39
【问题描述】:
我有下面一段 html,只需要从中提取文本
<p>Current</p> and <p>Archive</p>
Html 块看起来像:
<p>Current</p>
<a href="some link to somewhere 1">File1</a>
<br>
<a href="some link to somewhere 2">File2</a>
<br>
<a href="some link to somewhere 3">File3</a>
<br>
<p>Archive</p>
<a href="Some another link to another file">Some another file</a>
因此所需的输出应该类似于 File1、File2、File3。
这是我迄今为止尝试过的
import re
m = re.compile('<p>Current</p>(.*?)<p>Archive</p>').search(text)
但没有按预期工作。
有没有简单的解决方案如何在python中指定的html标签块之间提取文本?
【问题讨论】:
-
尝试使用
bs4lib 代替正则表达式 -
这里回答了这个问题。 stackoverflow.com/questions/14694482/…
-
为什么是python-3.x 和python-2.7?
标签: python python-3.x python-2.7