【发布时间】:2021-07-23 23:20:45
【问题描述】:
我已经设法创建了一个可以收集项目描述的网络爬虫,但是页面在滚动时会加载更多项目。
from selenium import webdriver
import time
import requests
from bs4 import BeautifulSoup
from numpy import mean
namelist=[]
driver=webdriver.Chrome()
driver.get("https://waxpeer.com/")
time.sleep(15)
links = driver.find_elements_by_xpath("//div[@class='lpd_div']/a")
我还需要将项目描述格式化为:
★ Karambit| Gamma Doppler (Factory new)
而不是:
★ Karambit
Gamma Doppler
Factory new
desc = driver.find_elements_by_xpath("//div[@class='lpd_div']/div[2]/p")
for item in desc:
print(item.text)
【问题讨论】:
-
您必须滚动并加载所有内容才能执行您需要执行的操作。
-
但是我如何通过硒或其他方式做到这一点?
-
复制整个代码?
-
什么?重复我的意思是这个问题以前被问过,你可以用那个问题来解决你的问题。
标签: python selenium web-scraping beautifulsoup bots