【问题标题】:What is the difference between saving web page info with Python program(urllib, request) and save through browser用Python程序(urllib,request)保存网页信息和通过浏览器保存有什么区别
【发布时间】:2019-01-19 01:05:17
【问题描述】:

当我尝试使用 python 程序打开网页时,缺少​​ HTML 页面的跨度类名称和 div 类信息。我尝试了 urllib.request.urlopen() 、 requests.get() 、 wget 、 robobrowser 和其他一些包来保存带有类名数据的网页,但没有成功。

url = 'https://www.google.com/maps/dir/Navallur,+Tamil+Nadu+600130/Vijayawada,+Andhra+Pradesh/@14.6711659,78.0012123,7z/data=!3m1!4b1!4m13!4m12!1m5!1m1!1s0x3a525a51439fd9f3:0x5fdacd19ed90126c!2m2!1d80.225463!2d12.8447728!1m5!1m1!1s0x3a35eff9482d944b:0x939b7e84ab4a0265!2m2!1d80.6480153!2d16.5061743'

page = urllib.request.urlopen(url).read()
page1 = requests.get(url).content

html = open('some1.html','wb')
html.write(page)
html.close()

【问题讨论】:

  • 有些网站不会立即加载所有内容,需要用户通过浏览器(或无头浏览器)与页面进行交互。

标签: python html url urllib2


【解决方案1】:

Python 中的 Selenium 包允许您执行 Naga 任务 :-)

from selenium import webdriver

ff = webdriver.Firefox()
ff.get(URL)
html = ff.page_sources

【讨论】:

    猜你喜欢
    • 2018-07-22
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-01-19
    • 2023-03-24
    • 2022-01-13
    • 2015-10-01
    • 2019-12-03
    相关资源
    最近更新 更多