1、爬虫目标

booking旅游网站香港地区酒店的评论内容

Booking网站爬虫,获取酒店评论内容(Python)

2、爬虫步骤

(1)gethotelurl.py

https://www.booking.com/reviews/hk/city/hong-kong.zh-cn.html中爬出香港排名前272家酒店的对应的网页评论地址,存储在hotel_revelant_informs.txt中。

Booking网站爬虫,获取酒店评论内容(Python)

(2)booking.py

(注:该代码爬的是英文评论,如若想要中文评论内容,按照注释中的修改90、91行即可)
从hotel_revelant_informs.txt中读取相应内容(英文评论落地页、英文文件名、英文评论数),然后爬取对应的评论内容,储存为以‘数字’+‘英文文件名’命名的txt文档中。

Booking网站爬虫,获取酒店评论内容(Python)

(3)merge.py

将爬出来的200多家酒店的英文评论合并成一个total_en.txt文件。(要将中文评论合并成一个只需将相关的en改成zn即可)

3、注意事项

gethotelurl.py和booking.py中
headers = {‘User-Agent’: ‘换成自己的User—Agent(详见使用说明)’}
User-Agent来源(以Google Chorme浏览器为例):
(1)进入网页,鼠标右键检查

Booking网站爬虫,获取酒店评论内容(Python)

(2)找到User-Agent

Booking网站爬虫,获取酒店评论内容(Python)

注:若第3步没出现,随便点击网站内任意链接即可

4、代码链接

http://download.csdn.net/download/weixin_40638517/10163668

相关文章:

  • 2021-04-11
  • 2021-04-19
  • 2022-12-23
  • 2021-12-01
  • 2022-12-23
  • 2022-12-23
  • 2021-10-30
  • 2021-07-04
猜你喜欢
  • 2022-12-23
  • 2021-06-18
  • 2021-12-02
  • 2021-12-27
  • 2021-09-02
  • 2021-04-25
  • 2021-12-20
相关资源
相似解决方案