使用 Python 在 Twitter 中抓取嵌套的 Div 和 Span？答案

【问题标题】：Using Python to Scrape Nested Divs and Spans in Twitter?使用 Python 在 Twitter 中抓取嵌套的 Div 和 Span？
【发布时间】：2016-04-27 01:22:22
【问题描述】：

我正在尝试从 Twitter 搜索结果中收集点赞和转发。

运行下面的 Python 后，我得到一个空列表，[]。我没有使用 Twitter API，因为它不会通过标签查看推文。

我使用的代码是：

from bs4 import BeautifulSoup
import requests

url = 'https://twitter.com/search?q=%23bangkokbombing%20since%3A2015-08-10%20until%3A2015-09-30&src=typd&lang=en'
r  = requests.get(url)
data = r.text
soup = BeautifulSoup(data, "lxml")
all_likes = soup.find_all('span', class_='ProfileTweet-actionCountForPresentation')
print(all_likes)

我可以使用此代码成功地将 html 保存到文件中。搜索文本时会丢失大量信息，例如我要查找的类名...

所以（部分）问题显然在于准确访问源代码。

 filename = 'newfile2.txt'
 with open(filename, 'w') as handle:
      handle.writelines(str(data))

此屏幕截图显示了我尝试抓取的跨度。

我已经看过这个问题，其他人也喜欢它，但我还没有完全明白。
How can I use BeautifulSoup to get deeply nested div values?

【问题讨论】：

谢谢 a) 知道 twitter 有一个 API 并且 b) 解释你为什么不使用它。

标签： python html twitter web-scraping beautifulsoup

【解决方案1】：

您的 GET 请求似乎返回了有效的 HTML，但 #timeline 元素中没有推文元素。但是，向请求标头添加用户代理似乎可以解决这个问题。

from bs4 import BeautifulSoup
import requests

url = 'https://twitter.com/search?q=%23bangkokbombing%20since%3A2015-08-10%20until%3A2015-09-30&src=typd&lang=en'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36'}
r = requests.get(url, headers=headers)
data = r.text
soup = BeautifulSoup(data, "lxml")
all_likes = soup.find_all('span', class_='ProfileTweet-actionCountForPresentation')
print(all_likes)

【讨论】：

谢谢。这解决了我问题的第一部分。如果我遇到不同的问题，我实际上是在抓取网站并开始一个新问题。