【发布时间】:2021-07-14 06:58:02
【问题描述】:
我正在尝试查找网页中的所有 cmets。
import requests
with requests.session() as r:
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:88.0) Gecko/20100101 Firefox/88.0'}
r = requests.get('https://www.example.com', verify=False, headers=headers)
print(r)
此脚本返回页面的所有源代码。但是,我只对查找注释行感兴趣。任何人都可以用正则表达式帮助我找到注释行。或者有没有更好的方法来找到这个?
【问题讨论】:
-
Don't use regex to parse HTML。查看BeautifulSoup 之类的包。当您提供一些代码并遇到无法解决的问题时 - 再次询问。现在,即使不知道您尝试抓取的网站,我们也无能为力。一个很好的关于报废的教程会有所帮助。