【发布时间】:2014-06-07 10:22:21
【问题描述】:
我正在使用“https://en.wikipedia.org/wiki/Special:Random”从维基百科生成随机页面,并使用 BeautifulSoup 阅读它们。问题是我只想要这样的文章页面:
http://en.wikipedia.org/wiki/Ada_County,_Idaho
但有时它是列表页面或消歧页面(我不想要)。例如:http://en.wikipedia.org/wiki/List_of_U.S._counties_named_after_personal_first_names
有没有一种简单的方法来区分这些情况?
【问题讨论】:
-
您是否尝试过查看为这些案例生成的 HTML?是否所有列表页面的
<title>都开始“列表”?您能否搜索“此消歧页面列出了与同一标题相关的文章”。到目前为止你做了什么? -
我正在使用 BeautifulSoup:read_data = urllib2.urlopen(src).read() self.soup = BeautifulSoup(read_data) s="" defination = self.soup.find_all('p')不涉及 HTML
-
“不涉及 [原文如此] HTML”?你觉得
BeautifulSoup在做什么? -
我知道它在做什么。我只是不想参与与 HTML 的直接业务。清除吗?
-
适度;使用 BS 获取标题元素并检查它是如何开始的算不算太动手?