【发布时间】:2020-03-24 20:30:28
【问题描述】:
我想从下面给定的 URL 中抓取所有公司的公司信息并查看他们的工作详细信息 网址:http://desiopt.com/search-results-jobs/
from selenium import webdriver
import bs4
import pandas as pd
from bs4 import BeautifulSoup
import re
driver = webdriver.Chrome(executable_path=r"C:/Users/Chandra Sekhar/Desktop/chrome-driver/chromedriver.exe")
titles=[]
driver.get("http://desiopt.com/search-results-jobs/")
content = driver.page_source
soup = BeautifulSoup(content)
for a in soup.findAll('div',attrs={'class':'listing-links'}):
info=a.find('div', attrs={'class':'userInfo'})
print(info.text)
titles.append(info.text)
df = pd.DataFrame({'Company info':titles})
df['Price'] = df['Price'].map(lambda x: re.sub(r'\W+', '', x))
df.to_csv('products1.csv', index=False)
【问题讨论】:
-
@ajayai 有什么问题?哪条线??错误堆栈跟踪???
-
@αԋɱҽԃαмєяιcαη 感谢您的关注。我已经以这种格式检查了你的 csv 文件,只有我需要输出文件。我是网络抓取的新手,请与我分享代码以更好地理解它。谢谢@αԋɱҽԃαмєяιcαη
-
我已经检查了文件。请在答案部分写代码
-
@ajayai 在下面查看我的答案
标签: python selenium-webdriver beautifulsoup