【发布时间】:2019-10-18 11:59:16
【问题描述】:
这是代码:
<!-- message -->
<div><b><font size="6"><font color="Red">Bilim ve Teknik dergisi Mayıs 2019 Sayısı Pdf</font></font></b><br />
<br />
<img src="https://scontent-dus1-1.xx.fbcdn.net/v/t1.0-9/59069640_871111339894885_8805863518755618816_n.jpg?_nc_cat=109&_nc_ht=scontent-dus1-1.xx&oh=2a71d0bc34cda6b45404c30624c75046&oe=5D6C1B30" border="0" alt="" /><br />
<br />
<b><font size="5"><a href="https://yadi.sk/i/oMnXUgBtTqKopg?fbclid=IwAR3KPXInlWCKFXuTKP1AU1VQGdsgvcDLdV9Px6YGOn3aU1tqAFz4Zo2J6PY" target="_blank">https://yadi.sk/i/oMnXUgBtTqKopg?fbc...1tqAFz4Zo2J6PY</a></font></b></div>
<!-- / message -->
如何在<!-- message --> 和<!-- message --> 之间切换?
我正在使用 Python 3 和 BeautifulSoup4。 以下代码产生空的混乱值:
tl="58421"
topLink="https://www.eskikitaplarim.com/showthread.php?t="+tl
page=s.get(topLink)
psoup=bs(page.text,'html.parser')
mess=psoup.find_all(text=re.compile("<!-- message -->(.*?)<!-- \/ message -->"))
print(mess)
【问题讨论】:
-
我不知道为什么这被标记为重复。用户正在使用 BeautifulSoup,所以看起来他们可能想做的不仅仅是只是在 cmets 之间获取
div。因此,可能不希望使用直接的正则表达式,因为他们可能想要进行额外的解析。由于该问题现在无法发布新答案,因此这里有一个适用于 BeautifulSoup 的问题。 pastebin.com/kn4BtYpi.
标签: regex beautifulsoup regex-lookarounds regex-group regex-greedy