【发布时间】:2018-12-19 13:56:57
【问题描述】:
我想要一些关于如何从这个网站上抓取数据的建议。
我从 selenium 开始,但一开始就卡住了,例如,我不知道如何设置日期。
到目前为止我的代码:
from bs4 import BeautifulSoup as soup
from openpyxl import load_workbook
from openpyxl.styles import PatternFill, Font
from selenium import webdriver
from selenium.webdriver.common.by import By
import datetime
import os
import time
import re
day = datetime.date.today().day
month = datetime.date.today().month
year = datetime.date.today().year
my_url = 'https://www.eex-transparency.com/homepage/power/germany/production/availability/non-usability-by-unit/non-usability-history'
cookieValue = '12-c12-cached|from:' +str(year)+ '-' +str(month)+ '-' +str(day-5)+ ','+'to:' +str(year)+ '-' +str(month)+ '-' + str(day) +',dateType:1,company:PreussenElektra,fuel:uranium,canceled:0,durationComparator:ge,durationValue:5,durationUnit:day'
#saving url
browser = webdriver.Chrome(executable_path=r"C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe")
my_url = 'https://www.eex-transparency.com/homepage/power/germany/production/availability/non-usability-by-unit'
browser.add_cookie({'name': 'tem', 'value': cookieValue})
browser.get(my_url)
my_url = 'https://www.eex-transparency.com/homepage/power/germany/production/availability/non-usability-by-unit/non-usability-history'
browser.get(my_url)
显然我不是要代码,只是一些关于如何继续使用 Selenium 的建议(如何设置日期和其他数据)或关于如何抓取this website的任何想法
提前致谢。
编辑:我正在尝试遵循 cookie 的方式。那是我更新的代码,我读到需要在加载页面之前创建 cookie,所以我这样做了,知道为什么它不起作用吗?
【问题讨论】:
-
这个 id
affected_date代表两个元素。 1. 报告的期间 2. 关注的期间,您要选择哪一项 -
要设置日期,您需要遍历 div 和其中的表格。而已。我不确定你在这里问什么。请更具体。谢谢!
-
我不知道如何与日历交互。我尝试将日期设置为文本,但它不起作用。
-
@DavideRavera 这听起来像X-Y problem。与其寻求解决问题的帮助,不如编辑您的问题并询问实际问题。你想做什么?
-
我正在尝试修改日历中的开始日期和结束日期,但我想问得更笼统,因为也许有更直接的方法。例如,我在另一种情况下开始使用 selenium,最终使用了 json,这实际上要快得多。