SpiderLianjia

介绍

python爬虫小程序,爬取链家网南京地区普通住宅二手房数据。

代码下载: https://gitee.com/lihaogn/SpiderLianjia

1 程序设计

1.1 开发环境

  • 操作系统:macOS Mojave
  • 软件需求:Python 3.6、MongoDB 3.6.2

1.2 基本功能

  1. 爬取链家网中南京市二手房普通住宅分类前40页的详细信息
  2. 绘制出鼓楼区不同装修情况的二手房的建筑面积与总价的关系图

1.3 程序流程图

1.3.1 爬取数据

Python 小项目 01 爬虫项目 爬取Lianjia

1.3.2 数据处理与图绘制

Python 小项目 01 爬虫项目 爬取Lianjia

1.4 数据库设计

1.4.1 数据表设计
字段名 字段数据类型
标题名称 String
房屋总价 String
小区名称 String
行政区域 String
房屋地址 String
房屋户型 String
所在楼层 String
建筑面积 String
户型结构 String
套内面积 String
建筑类型 String
房屋朝向 String
建筑结构 String
装修情况 String
梯户比例 String
配备电梯 String
产权年限 String

2 使用说明

2.1 安装与配置

2.1.1 安装Python
  1. 访问官网,进入下载页面,选择对应操作系统的版本进行下载,之后安装即可。

  2. 配置环境变量:

    Windows系统在安装时直接选择添加环境变量即可。

  3. 打开终端或命令提示符,输入以下指令来安装第三方库文件:

pip install lxml
pip install beautifulsoup4
pip install matplotlib
pip install numpy
pip install pandas
pip install pymongo
pip install requests
2.1.2 安装MongoDB
  1. 访问官网,进入下载页面下载软件,之后安装即可。macOS下载的是压缩包,解压即可。

  2. 配置环境变量:
    macOS需要在主目录.bash_profile文件中添加MongoDB所在的安装路径。

    添加的语句为:

    MONGODB_HOME=”你安装MongoDB的绝对路径”
    PATH=”$ MONGODB_HOME/bin:$PATH

2.2 操作说明

2.2.1 运行数据库服务
  1. Windows系统,需要打开安装目录,双击mongod.exe来运行数据库服务。
  2. macOS,打开终端,输入“mongod”指令来运行数据库服务。
2.2.2 爬取数据并入库
  1. 打开终端或命令提示符,输入指令进入项目文件夹

  2. 运行以下指令,进行爬取数据:

    python spider_work.py
    
2.2.3 绘制关系图
  1. 打开终端或命令提示符,输入指令进入项目文件夹

  2. 运行以下指令,进行绘图操作:

    python dataAnalyse.py
    

3 结果展示

3.1 数据库截图

Python 小项目 01 爬虫项目 爬取Lianjia

3.2 绘图

Python 小项目 01 爬虫项目 爬取Lianjia

相关文章: