先装requests库

1.点击下面的链接直接下载安装包

https://github.com/kennethreitz/requests/zipball/master

2.下载下来之后解压,放到一个目录下,比如d:\request

现在的目录结构大致是这样:

D:
    ----request
      ----setup.py
      ----REDEME.md
      ----requirements.txt

      ----.....(等等文件)

3.运行cmd,进入d:\request目录(先输入d:,再输入cd req)

4.运行语句

python setup.py install

5.检查是否安装成功

在cmd里输入 python

然后输入import requests

然后打开vs2017搞第一个爬虫

代码如下:

import requests #导入requests库

r = requests.get('https://www.baidu.com') #像目标url地址发送get请求,返回一个response对象
print(r.text) #r.text是http response的网页HTML

得到结果

中科之旅------python爬虫

然后这样我怎么从中获取我想要的数据呢,得接下来继续搞

安装beautifulsoup4-4.4.1

差不多类似

python setup.py build      
python setup.py install

结果发现不行,于是就没辙了,先用git bash输入

curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py

然后下载了

中科之旅------python爬虫

 

然后打开cmd输入

中科之旅------python爬虫

然后就ok了

中科之旅------python爬虫

但是其实pip没装好

还得把C:\Users\lenovo\AppData\Local\Programs\Python\Python37\Scripts这个是pip.exe所在的文件路径加到环境变量中

中科之旅------python爬虫

真是一堆坑,要不是配置环境麻烦当年我就搞起java了

然后回头

中科之旅------python爬虫

这个破程序总算执行成功了。。。。。。

import requests #导入requests库
from bs4 import BeautifulSoup  #导入BeautifulSoup 模块

r = requests.get('https://www.baidu.com') #像目标url地址发送get请求,返回一个response对象
print(r.text) #r.text是http response的网页HTML
all_a = BeautifulSoup(r.text, 'lxml').find_all('a', class_='cV68d')  #获取网页中的class为cV68d的所有a标签

相关文章: