【发布时间】:2012-09-12 07:54:41
【问题描述】:
抱歉这个愚蠢的问题......刚开始使用python(但我喜欢它)。
问题: 我想从center for documentation of violism in syria 中抓取数据。目前我正在使用这个刮刀来收集数据。问题是我只能访问一行,而不是从表中刮掉所有行。 首选输出应如下所示
姓名 身份 性别 省份 地区 dateofdeath causeofdeath
import urllib2
from BeautifulSoup import BeautifulSoup
f = open('syriawar.tsv', 'w')
f.write("Row" + "\t" + "Data" + "\n")
for x in range (0,249):
syria = "file" + "\t" + str(x)
print "fetching data ... " + syria
url ='http://vdc-sy.org/index.php/en/martyrs/' + str(x) + '/c29ydGJ5PWEua2lsbGVkX2RhdGV8c29ydGRpcj1ERVNDfGFwcHJvdmVkPXZpc2libGV8c2hvdz0xfGV4dHJhZGlzcGxheT0wfA=='
page = urllib2.urlopen(url)
soup = BeautifulSoup(page)
sentence = soup.findAll('tr')[3].text
words = sentence
Data = str(words)
f.write(str(x) + "\t" + Data + "\n" )
f.close()
【问题讨论】:
标签: html-parsing beautifulsoup