【发布时间】:2012-03-22 16:58:39
【问题描述】:
我刚开始学习使用 Python 进行网页抓取。但是,我已经遇到了一些问题。
我的目标是从 fishbase.org (http://www.fishbase.org/ComNames/CommonNameSearchList.php?CommonName=salmon) 上抓取不同金枪鱼物种的名称
问题:我无法提取所有物种名称。
这是我目前所拥有的:
import urllib2
from bs4 import BeautifulSoup
fish_url = 'http://www.fishbase.org/ComNames/CommonNameSearchList.php?CommonName=Tuna'
page = urllib2.urlopen(fish_url)
soup = BeautifulSoup(html_doc)
spans = soup.find_all(
从这里开始,我不知道如何提取物种名称。我想过使用正则表达式(即soup.find_all("a", text=re.compile("\d+\s+\d+")) 来捕获标签内的文本...
任何意见都将受到高度赞赏!
【问题讨论】:
标签: python html web-scraping beautifulsoup