爬取旅游网页信息

一、主题式网络爬虫设计方案

主题式网络爬虫名称

爬取hao123旅游网信息
主题式网络爬虫爬取的内容与数据分析

旅游网的景点、价格、位置、累计售票、顾客满意度、顾客点评、售票预定时间
主题式网络爬虫设计方案概述

通过链接获取网页页面，再通过正则获取数据

二、主题页面的结构特征分析

1.主题页面的结构特征

2.Htmls页面解析

3.节点（标签）查找方法与遍历方法

查找方法：find_all()

遍历方法：for循环

三、网络爬虫程序设计

1.数据爬取与采集

import requests

import re

import pandas as pd

def get_html(url):

\'\'\'

定义一个获取网页的函数

\'\'\'

try:

hed = {

\'User-Agent\': \'Mozilla/5.0\',

}

r = requests.get(url,headers = hed)

r.raise_for_status()

r.encoding = r.apparent_encoding

return r.text

except:

return \'爬取失败\'

url = \'https://go.hao123.com/ticket\'

html = get_html(url)

# 获取url链接

city_url = r\'data-option="city" data-val=".*?">(.*?)</a>\'

city_list = re.findall(city_url,html)

new_city = []

for i in city_list:

new_city.append(\'https://go.hao123.com/ticket?search=\' + i)

# 使用pandas储存数据

pd.set_option(\'display.unicode.ambiguous_as_wide\', True)

pd.set_option(\'display.unicode.east_asian_width\', True)

column = [\'景点\',\'价格\',\'位置\',\'累计售票\',\'游客满意度（%）\',\'游客点评（条）\',\'门票预订时间\']

s1 = pd.DataFrame(columns=column)

# 逐个页面获取数据

x = 0

for new_url in new_city:

html = get_html(new_url)

# 获取景点名

req1 = r\'<a class="title g-ib g-tover" href=".*?" target="_blank">(.*?)<span class="small">\'

data1 = re.findall(req1,html)

# <div class="des g-tover">累计售票<em>342</em>张，游客满意度：<em>50%</em>，游客点评<em>68</em>条</div>

req2 = r\'<div class="des g-tover">累计售票<em>(.*?)</em>张，游客满意度：<em>(.*?)</em>，游客点评<em>(.*?)</em>条</div>\'

data2 = re.findall(req2,html)

# 获取景点地点

req_pla = r\'<div class="address" title=\\'.*?\\'>(.*?)<a href="\'

data_pla = re.findall(req_pla,html)

# 获取票价

req_pri = r\'<div class="price">￥(.*?)<i class="smaller">起</i></div>\'

data_pri = re.findall(req_pri,html)

# 获取售票时间

re_time = r\'<div class="site-footer g-tover" title=".*?[\r\n]?.*?"><em class="limit">(.*?)</em>(.*?)[\r\n]?(.*?)</div>\'

data_time = re.findall(re_time,html)

for i in range(len(data1)):

s1 = s1.append({\'景点\':data1[i],\'价格\':data_pri[i],\'位置\':data_pla[i],\'累计售票\':data2[i][0],\'游客满意度（%）\':data2[i][1],\'游客点评（条）\':data2[i][2],\'门票预订时间\':data_time[i]}, ignore_index=True)

print(\'保存{}成功\'.format(city_list[x]))

x += 1

# 在本地，将数据保存成xls格式

s1.to_excel(\'旅游网1.xls\')

if x == len(city_list):

break

2.对数据进行清洗和处理

3.文本分析（可选）：jieba分词、wordcloud可视化

4.数据分析与可视化

5.根据数据之间的关系，分析两个变量之间的相关系数

6.数据持久化

7.附完整程序代码

import requests

import re

import pandas as pd

import matplotlib.pyplot as plt

def get_html(url):

\'\'\'

定义一个获取网页的函数

\'\'\'

try:

hed = {

\'User-Agent\': \'Mozilla/5.0\',

}

r = requests.get(url,headers = hed)

r.raise_for_status()

r.encoding = r.apparent_encoding

return r.text

except:

return \'爬取失败\'

url = \'https://go.hao123.com/ticket\'

html = get_html(url)

# 获取url链接

city_url = r\'data-option="city" data-val=".*?">(.*?)</a>\'

city_list = re.findall(city_url,html)

new_city = []

for i in city_list:

new_city.append(\'https://go.hao123.com/ticket?search=\' + i)

# 使用pandas储存数据

pd.set_option(\'display.unicode.ambiguous_as_wide\', True)

pd.set_option(\'display.unicode.east_asian_width\', True)

column = [\'景点\',\'价格\',\'位置\',\'累计售票\',\'游客满意度（%）\',\'游客点评（条）\',\'门票预订时间\']

s1 = pd.DataFrame(columns=column)

# 逐个页面获取数据

x = 0

for new_url in new_city:

html = get_html(new_url)

# 获取景点名

req1 = r\'<a class="title g-ib g-tover" href=".*?" target="_blank">(.*?)<span class="small">\'

data1 = re.findall(req1,html)

# <div class="des g-tover">累计售票<em>342</em>张，游客满意度：<em>50%</em>，游客点评<em>68</em>条</div>

req2 = r\'<div class="des g-tover">累计售票<em>(.*?)</em>张，游客满意度：<em>(.*?)</em>，游客点评<em>(.*?)</em>条</div>\'

data2 = re.findall(req2,html)

# 获取景点地点

req_pla = r\'<div class="address" title=\\'.*?\\'>(.*?)<a href="\'

data_pla = re.findall(req_pla,html)

# 获取票价

req_pri = r\'<div class="price">￥(.*?)<i class="smaller">起</i></div>\'

data_pri = re.findall(req_pri,html)

# 获取售票时间

re_time = r\'<div class="site-footer g-tover" title=".*?[\r\n]?.*?"><em class="limit">(.*?)</em>(.*?)[\r\n]?(.*?)</div>\'

data_time = re.findall(re_time,html)

for i in range(len(data1)):

print(\'保存{}成功\'.format(city_list[x]))

x += 1

# 在本地，将数据保存成xls格式

s1.to_excel(\'旅游网1.xls\')

if x == len(city_list):

break

# 可视化时能显示中文

plt.rcParams[\'font.sans-serif\'] = [\'SimHei\']

# pandas不能对齐，要设置pandas的参数

pd.set_option(\'display.unicode.ambiguous_as_wide\', True)

pd.set_option(\'display.unicode.east_asian_width\', True)

# 显示所有的行和列，并设置value的显示长度为100

pd.set_option(\'display.max_columns\', 100)

pd.set_option(\'display.max_rows\', 100)

pd.set_option(\'max_colwidth\',100)

# 使pandas打印出来不会换行

pd.set_option(\'display.width\',500)

# 读取excel中的内容，并保存到df中

# Tourism website

tw = pd.read_excel(\'旅游网1.xls\')

tw.name = \'旅游网\'

# 查看数据前五行

print(tw.head())

# 删除无用的列

tw = tw.drop(\'Unnamed: 0\',axis=1)

#查找是否有重复值

print(tw.duplicated())

# 把重复值删除，并在进行查看删除后的结果

tw = tw.drop_duplicates()

print(tw.duplicated())

# 查看价格是否有空值或缺失值

print(tw[\'价格\'].isnull().value_counts())

# 游客满意度和价格的柱状图

a = tw[\'游客满意度（%）\']

b = tw[\'价格\']

plt.bar(a,b)

plt.xlabel(\'游客满意度（%）\')

plt.ylabel(\'价格\')

plt.show()

# 满意度和价格的分布情况

plt.scatter(tw[\'游客满意度（%）\'],tw[\'价格\'])

plt.show()

四、结论

1.经过对主题数据分析与可视化，可以得到哪些结论？

景区的价格基本不影响满意度
满意度普遍都在50%以上

2.对本次程序设计任务完成情况做一个简单的小结

通过这次程序设计任务，丰富了我很多有关爬虫和数据分析的相关知识