【发布时间】:2017-11-29 12:22:18
【问题描述】:
过去两天我一直在不停地做这个...... 我正在尝试使用 BeautifulSoup 通过其 ID 获取特定的 div:
import requests
from bs4 import BeautifulSoup
r = requests.get('www.example.com', cookies=cookies_dict)
soup = BeautifulSoup(r.content, 'html.parser')
div_text = soup.get('div', {'id': 'this_div_id'}).text
print div_text
我得到的只是一本字典:
{'id': 'this_div_id'}
现在,我检查以确保 'this_div_id' 实际上在 r.content 内:
>>> 'this_div_id' in r.content
True
我很乐意收到任何帮助和建议。
【问题讨论】:
-
{'id', 'this_div_id'}是set,而不是dict(dict将是{'id': 'this_div_id'})。撇开这一点不谈,如果没有源 html(或至少足以重现问题),就不可能回答您的问题。 -
不幸的是我不能在这里添加。 div 包含在许多其他元素中,这让我想知道 BeautifulSoup 是否只能在 HTML 中走这么远直到它停止。
-
“不幸的是,我无法在此处添加。div 位于许多其他元素中” => 这如何阻止您发布准确再现问题的 html 片段???
-
自我更正:实际上是可以在没有最小 html 源的情况下回答问题...但这并不意味着在没有 MCVE 的情况下发布调试问题是可以的。
标签: python python-2.7 beautifulsoup python-requests