【问题标题】:Google search web scraping with a list of key words in python谷歌搜索网页抓取与python中的关键字列表
【发布时间】:2020-03-11 02:12:53
【问题描述】:

我正在尝试通过使用名称列表作为输入并在 DataFame 中获取数据集来对 Google 搜索进行网络抓取。我之前使用 selenium 进行网页抓取,我很难构建语法使用循环运行名称列表作为输入来获取结果并抓取每个页面。下面是我的 Python 代码:

baseUrl = 'https://www.google.com/search?q='
pluseUrl = input('CEO: ')    
url = baseUrl + quote_plus(pluseUrl)

browser = webdriver.Chrome(r"C:\Users\...\chromedriver.exe")
browser.get(url)

table = browser.find_elements_by_css_selector('div.ifM9O') 

df = pd.DataFrame(columns = ['ceo', 'value'])
values =[]


for row in table:
    ceo = str(([c.text for c in row.find_elements_by_css_selector('div.kno-ecr-pt.PZPZlf.gsmt.i8lZMc')])).strip('[]').strip("''")
    value = str(([c.text for c in row.find_elements_by_css_selector('div.Z1hOCe')])).strip('[]').strip("''")

ceo = pd.Series(ceo)
value = pd.Series(value)

df = df.assign(**{'ceo': ceo, 'value': value}) 


print(df)

这是将比尔盖茨作为输入后的结果:

CEO: Bill gates
          ceo                                              value
0  Bill Gates  Born: October 28, 1955 (age 64 years), Seattle...

任何建议或建议将不胜感激。

【问题讨论】:

  • quote_plus 部分是干什么用的?还有你到底想要什么“价值”列
  • @Gorlomi 创建 quote_plus 部分是为了手动输入名称。我想改变它并将其移动到一个循环中。对于此代码的输出,我希望数据框包含两列 - CEO 和值 - 包括 CEO 列表。值部分,在我展示的示例中,它“出生:1955 年 10 月 28 日(64 岁),西雅图......”。
  • 你最近发的这两个问题是不是和这个很像:stackoverflow.com/questions/60643795/…,stackoverflow.com/questions/60645955/…

标签: python selenium for-loop web-scraping


【解决方案1】:

试试这个:

baseUrl = 'https://www.google.com/search?q='
browser = webdriver.Chrome(r"C:\Users\...\chromedriver.exe")
input_list = ["Bill Gates", "Elon Musk", "Warren Buffet"]
output = {}

def scrape_ceo_list(list_of_ceo):
     for ceo in list_of_ceo:
          browser.get(baseUrl + ceo)

          // query selectors, dataframes etc as per original code
          // ...

          output[ceo] = df

output 现在是一个数据框字典,以 CEO 姓名作为字典键。

【讨论】:

  • 谢谢。这很有帮助,但仍然没有用。
  • 当你说它不起作用时——它是否抛出了一个错误(如果是,它是什么)?还是它运行并没有产生预期的结果?
猜你喜欢
  • 1970-01-01
  • 2021-06-27
  • 1970-01-01
  • 1970-01-01
  • 2021-01-17
  • 2020-05-03
  • 2023-03-29
  • 1970-01-01
  • 2022-08-17
相关资源
最近更新 更多