昂昂昂我错辽 

前两天就学了一点点 去吃吃喝喝 也忘记发微博了

今天补一波 前两天学的零零碎碎

【再次声明】代码大量来自bilibili网课:零基础入门python3爬虫   少量来自百度百科

DAY3

 

获取cookies

 

import requests

response = requests.get(‘http://www.baidu.com’)

print(response.cookies)

for key,value in response.cookies.items():

   print (key+’=’+value)

 

如何消除警报信息

【如下】

一开始 12306网站其实是有证书验证的问题的,爬取一哈试试看

import requests

response = requests.get('http://www.12306.cn',verify=False)

print(response.status_code)

1.21/1.22

这个红色的证书就是表明 你是没有认证证书的

下面老师就给出了一个方法,叫你消除这个警报

import requests

from requests.packages import urllib3

urllib3.disable_warnings()

response = requests.get('http://www.12306.cn',verify=False)

print(response.status_code)

1.21/1.22

你们看 现在舒服了吧 不过这个只是个障眼法 叫做眼不见为净

 

【正则表达式那一节我看着有点烦 就想到后来实践的时候再学,就跳过了】

 

那我们来到了【beautifulsoup】库的详解

它是一个网页解析库,就是不用编写正则表达式就可以方便地实现网页信息的提取。1.21/1.22

这个就是beautifulsoup的解析库

 

beautifulsoup解析库的总结:

  1. 推荐使用lxml解析库
  2. 建议使用find(),find_all()查询匹配单个结果或者多个结果
  3. 如果对CSS选择器熟悉建议使用select()

 

selenium库

主要是为了解决JavaScript渲染的问题

 

from selenium import webdriver

import time

browser = webdriver.Chrome()            /*声明浏览器对象*/

browser.get('http://www.taobao.com')      /*访问页面*/

input = browser.find_element_by_id('q')     /*查找元素*/

input.send_keys('iPhone')                 /*输入关键字*/

time.sleep(1)                            /*延时1s*/

input.clear()                           /*清除关键字*/

input.send_keys('iPad')            

button = browser.find_element_by_class_name('btn-search')

button.click()

相关文章:

  • 2021-11-01
  • 2021-07-10
  • 2022-12-23
  • 2022-01-09
  • 2018-01-22
  • 2019-01-28
  • 2021-09-01
  • 2018-01-29
猜你喜欢
  • 2021-10-18
  • 2022-12-23
  • 2021-09-11
  • 2022-12-23
  • 2022-12-23
  • 2022-01-03
  • 2020-10-09
相关资源
相似解决方案