【发布时间】:2021-10-10 18:52:19
【问题描述】:
我想使用漂亮的汤和硒在网站上下载 pdf 文件。
我已经把代码写到这里了,它是不完整的。但是,由于我找不到下载 pdf 文件的链接。
#!/usr/bin/python
from bs4 import BeautifulSoup
from selenium import webdriver
import webbrowser
import os
import requests
import urllib2
import time
import urllib
try:
options = webdriver.ChromeOptions()
options.add_argument("--headless")
options.add_argument('--no-sandbox')
driver = webdriver.Chrome("/usr/bin/chromedriver", chrome_options=options)
except urllib2.HTTPError as e:
print(e)
except urllib2.URLError:
print ("Server down or incorrect domains.")
else:
def not_relative_uri(href):
return re.compile('^https://').search(href) is not None
driver.get("https://xxxxxx")
# print(driver.page_source.encode('utf-8'))
my_folder="/home/python/"
soup_res = BeautifulSoup(driver.page_source.encode('utf-8'), 'html.parser')
tr = soup_res.find("div", {"id":"pageWrapper"}).find("div", {"class":"EGZDefault-List"}).find("div", {"class":"EGZDefault-List-Info-List"}).find("table", {"class":"gridview"}).find("tbody").find_all('tr')[1:21]
我希望有人可以帮助我。
【问题讨论】:
-
那个网址打不开..试了好几次
-
@Prophet 路径访问成功。请帮我再试一次。
标签: python asp.net selenium-webdriver beautifulsoup