【发布时间】:2014-09-21 13:24:50
【问题描述】:
我正在尝试从这个网站获取时间序列到 python:http://www.boerse-frankfurt.de/en/etfs/db+x+trackers+msci+world+information+technology+trn+index+ucits+etf+LU0540980496/price+turnover+history/historical+data#page=1
我已经走了很远,但不知道如何获取所有数据,而不仅仅是您可以在页面上看到的前 50 行。要在线查看它们,您必须单击表格底部的结果。我希望能够在 python 中指定开始和结束日期,并在列表中获取所有相应的日期和价格。这是我目前所拥有的:
from bs4 import BeautifulSoup
import requests
import lxml
import re
url = 'http://www.boerse-frankfurt.de/en/etfs/db+x+trackers+msci+world+information+technology+trn+index+ucits+etf+LU0540980496/price+turnover+history/historical+data'
soup = BeautifulSoup(requests.get(url).text)
dates = soup.findAll('td', class_='column-date')
dates = [re.sub('[\\nt\s]','',d.string) for d in dates]
prices = soup.findAll('td', class_='column-price')
prices = [re.sub('[\\nt\s]','',p.string) for p in prices]
【问题讨论】:
标签: python html parsing web beautifulsoup