【发布时间】:2019-01-30 12:59:33
【问题描述】:
我有一个非常简单的测试脚本,用于从 Wikipedia 获取文章并抓取页面中出现的第一段文本(即summary)。
这里是:
from bs4 import BeautifulSoup
import urllib2
url = "https://en.wikipedia.org/wiki/Vicia_faba"
print url
source = urllib2.urlopen(url)
soup = BeautifulSoup(source, 'lxml')
print soup
summary = soup.find('p').getText()
print summary
解析summary 时我什么也得不到,尽管页面已成功获取并正确传递给BeautifulSoup。
这看起来是一个很简单的问题,但我无法继续前进。 BeautifulSoup 充满了诡计,但不幸的是我并不知道其中的许多人!
提前感谢您的任何提示或建议。
【问题讨论】:
标签: python beautifulsoup wikipedia