【发布时间】:2017-06-02 08:31:09
【问题描述】:
我想抓取在谷歌财经上列出的公司的名称、网址和描述。到目前为止,我已成功获取描述和 url,但无法获取名称。在 myUrl 的源代码中,名称是 024 Pharma Inc。当我看到 div 时,该类名为“appbar-sn-p-primary”。但是代码仍然没有找到它。我是网络抓取的新手,所以我可能遗漏了一些东西。请在这方面指导我。
from bs4 import BeautifulSoup
import urllib
import csv
myUrl = 'https://www.google.com/finance?q=OTCMKTS%3AEEIG'
r = urllib.urlopen(myUrl).read()
soup = BeautifulSoup(r, 'html.parser')
name_box = soup.find('div', class_='appbar-snippet-primary') # !! This div is not found
#name = name_box.text
#print name
description = soup.find('div', class_='companySummary')
desc = description.text.strip()
#print desc
website = soup.find('div', class_='item')
site = website.text
#print site
【问题讨论】:
-
你找不到div 'appbar-sn-p-primary' 因为这个div是用javascript动态生成的,你需要
selenium或splash来报废这种网页。
标签: python web-scraping