【发布时间】:2020-09-23 17:13:12
【问题描述】:
我刚开始尝试使用 python 和 BeautifulSoup。
我想获取与特定城市相关的文章的链接
这是当前代码
import requests
from bs4 import BeautifulSoup
city = "london"
result = requests.get('https://www.origo.hu/kereses/index.html?q=' + city)
def main_loop():
soup = BeautifulSoup(result.content, features="lxml")
articles = soup.find("div", "oc-articleList")
print(articles)
if result.status_code == 200:
main_loop()
else:
print('error:', result.status_code)
结果是:
<div class="oc-articleList"></div>
我尝试的第一件事是获取文章:
articles = soup.find_all("article")
但它可以找到任何东西。
如果您检查网站源代码,它看起来像这样:
<div class="oc-articleList">
<article>...</article>
<article>...</article>
<article>...</article>
<article>...</article>
.
.
.
</div>
如何让 BS 解析更深入的 DOM?
【问题讨论】:
-
如果没有实际的网址,可能很难得到答案。
-
可以分享网址吗?
-
我编辑了它。
标签: python web web-scraping beautifulsoup python-requests