【发布时间】:2019-10-09 09:06:21
【问题描述】:
我是爬虫的新手,但我已经尝试了各种方法来解决这个问题,但没有得到想要的结果。我想抓取这个网站https://www.accesswire.com/newsroom/ 并且我想抓取所有的标题,当我在浏览器中检查它们时会显示标题,但是在使用 bs4 或 selenium 抓取之后,我没有得到完整的页面源代码,也没有获得头条新闻。
我已经尝试过time.sleep(10),但这对我来说也行不通。我使用硒来获取页面,但这对我也不起作用。
div.column-15 w-col w-col-9
这是标题所在的类,div
ua = UserAgent()
header = {'user-agent':ua.chrome}
url = "https://www.accesswire.com/newsroom/"
response = requests.get(url, headers=header)
time.sleep(12)
soup = BeautifulSoup(response.content, 'html.parser')
time.sleep(12)
headline_Div = soup.find("div",{"class":"column-15 w-col w-col-9"})
print(headline_Div)
我只想获取此页面上的所有标题和标题链接 或者至少应该显示一个完整的页面源,以便我可以自己操作它。
【问题讨论】:
-
你得到了什么?
-
该站点似乎是异步和动态加载的,因此请求和 BS4 将无法获取页面元素。请包括您在 selenium 中尝试过的内容,因为这可能是更好的选择
-
我得到了网站的页面来源,但没有得到标题。这是我想废弃的东西
-
这里是硒代码
-
import time from selenium import webdriver from bs4 import BeautifulSoup driver = webdriver.Chrome('C:/Users/MUNTAZIR/Downloads/Compressed/chromedriver_win32/chromedriver.exe') time.sleep(5) site_url = "https://www.accesswire.com/newsroom/" time.sleep(5) print(site_url) soup = BeautifulSoup(driver.page_source, 'lxml') print(soup)
标签: python selenium web-scraping beautifulsoup screen-scraping