1.21/1.22 - 爱码网

昂昂昂我错辽

前两天就学了一点点去吃吃喝喝也忘记发微博了

今天补一波前两天学的零零碎碎

【再次声明】代码大量来自bilibili网课：零基础入门python3爬虫少量来自百度百科

DAY3

获取cookies

import requests

response = requests.get(‘http://www.baidu.com’)

print(response.cookies)

for key,value in response.cookies.items():

print (key+’=’+value)

如何消除警报信息

【如下】

一开始 12306网站其实是有证书验证的问题的，爬取一哈试试看

import requests

response = requests.get('http://www.12306.cn',verify=False)

print(response.status_code)

1.21/1.22

这个红色的证书就是表明你是没有认证证书的

下面老师就给出了一个方法，叫你消除这个警报

import requests

from requests.packages import urllib3

urllib3.disable_warnings()

response = requests.get('http://www.12306.cn',verify=False)

print(response.status_code)

1.21/1.22

你们看现在舒服了吧不过这个只是个障眼法叫做眼不见为净

【正则表达式那一节我看着有点烦就想到后来实践的时候再学，就跳过了】

那我们来到了【beautifulsoup】库的详解

它是一个网页解析库，就是不用编写正则表达式就可以方便地实现网页信息的提取。 1.21/1.22

这个就是beautifulsoup的解析库

beautifulsoup解析库的总结：

selenium库

主要是为了解决JavaScript渲染的问题

from selenium import webdriver

import time

browser = webdriver.Chrome() /*声明浏览器对象*/

browser.get('http://www.taobao.com') /*访问页面*/

input = browser.find_element_by_id('q') /*查找元素*/

input.send_keys('iPhone') /*输入关键字*/

time.sleep(1) /*延时1s*/

input.clear() /*清除关键字*/

input.send_keys('iPad')

button = browser.find_element_by_class_name('btn-search')

button.click()