【发布时间】:2016-10-22 01:25:52
【问题描述】:
我正在查看以下网站:
https://modules.ussquash.com/ssm/pages/leagues/League_Information.asp?leagueid=1859
我想提取每所大学的名称以及与之关联的 href。所以对于第一个条目,我想得到Stanford和https://modules.ussquash.com/ssm/pages/leagues/Team_Information.asp?id=18564
我已经使用 BeautifulSoup 获得了所有 TD。我只是难以提取学校及其href。
这是我的尝试:
def main():
r = requests.get('https://modules.ussquash.com/ssm/pages/leagues/League_Information.asp?leagueid=1859')
data = r.text
soup = BeautifulSoup(data)
table = soup.find_all('table')[1]
rows = table.find_all('tr')[1:]
for row in rows:
cols = row.find_all('td')
print(cols)
当我尝试访问 cols[0] 时,我得到:
IndexError: list index out of range
任何想法如何解决这个问题都很棒!
谢谢
【问题讨论】:
标签: python beautifulsoup