【问题标题】:get around cookies with requests + python使用请求 + python 绕过 cookie
【发布时间】:2017-08-09 02:42:23
【问题描述】:

我是 python 和抓取的菜鸟。我了解基础知识,但无法解决这个问题。

我正在尝试使用带有 requests 和 beautifullsoup 库的 python 从 www.tweakers.net 抓取内容。但是,当我抓取时,我会一直抓取 cookie 语句而不是实际的网站内容。希望有人可以帮助我编写代码。我在其他网站上遇到了类似的问题,所以真的很想了解如何解决这样的问题。这就是我现在所拥有的。

import time
from bs4 import BeautifulSoup
import requests
from requests.cookies import cookiejar_from_dict


last_agreed_time = str(int(time.time() * 1000))
url = 'www.tweakers.net'

with requests.Session() as session:
    session.headers = {'User-Agent': 'Mozilla/5.0 (Linux; U; Android 4.0.3; ko-kr; LG-L160L Build/IML74K) AppleWebkit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30'}
    session.cookies = cookiejar_from_dict({
        'wt3_sid': %3B318816705845986
        'wt_cdbeid': 68907f896d9f37509a2f4b0a9495f272
        'wt_feid': 2f59b5d845403ada14b462a2c1d0b967
        'wt_fweid' 473bb8c305b0b42f5202e14a
})
    response = session.get(url)
    soup = BeautifulSoup(response.content)
    soup.prettify()`

不要介意标题的内容,我从其他地方撕下来的。

【问题讨论】:

    标签: python web-scraping python-requests


    【解决方案1】:

    用于抓取的两个最佳导入是 selenium 或 cookielib。这是 selenium http://selenium-python.readthedocs.io/api.html 和 cookielib https://docs.python.org/2/library/cookielib.html 的链接。

    ## added selenium code
    from selenium import webdriver
    import time
    from bs4 import BeautifulSoup
    import requests
    
    url = 'www.tweakers.net'
    driver = webdriver.Chrome() # or webdriver.Firefox()
    driver.set_window_size(1120, 550)
    driver.get(url)
    #add needed cookies
    driver.add_cookie({'wt3_sid': %3B318816705845986
            'wt_cdbeid': 68907f896d9f37509a2f4b0a9495f272
            'wt_feid': 2f59b5d845403ada14b462a2c1d0b967
            'wt_fweid' 473bb8c305b0b42f5202e14a})
    ##this would be to retrieve a cookie
    print(driver.get_cookie('string'))
    driver.get(url)
    soup = BeautifulSoup(driver.content)
        soup.prettify()
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2022-07-28
      • 2014-12-18
      • 1970-01-01
      • 2014-04-29
      • 1970-01-01
      • 2021-07-24
      • 2018-04-16
      • 1970-01-01
      相关资源
      最近更新 更多