【发布时间】:2014-12-17 03:11:24
【问题描述】:
我下面的代码从 (http://my.gwu.edu/mod/pws/courses.cfm?campId=1&termId=201501&subjId=ACCY) 中抓取 tr, align='center' 标签中的 td 元素,用逗号分隔每个元素,并将结果写入文本文件:
import bs4
import requests
response = requests.get('http://my.gwu.edu/mod/pws/courses.cfm?campId=1&termId=201501&subjId=ACCY')
soup = bs4.BeautifulSoup(response.text)
soup.prettify()
acct = open("/Users/it/Desktop/accounting.txt", "w")
for tr in soup.find_all('tr', align='center'):
stack = []
for td in tr.findAll('td'):
stack.append(td.text.strip())
acct.write(", ".join(stack))
但是,当写入文本文件时,会有很多空行(我想删除),并且每一行都没有以正确的元素开头。
这是我的 .txt 文件在我当前代码中的样子:
这是我想要的样子:
如何更改我的代码以删除所有空白行并让每一行以“OPEN”开头,等等?
【问题讨论】:
标签: python html parsing web-scraping beautifulsoup