【发布时间】:2011-05-26 13:05:05
【问题描述】:
如何使用 Python 从 Wikipedia 文章中提取第一段?
例如,对于 阿尔伯特·爱因斯坦,那就是:
阿尔伯特·爱因斯坦(读音 /ˈælbərt ˈaɪnstaɪn/;德语:[ˈalbɐt ˈaɪnʃtaɪn] ( 听); 1879 年 3 月 14 日 – 4 月 18 日 1955)是理论物理学家, 广泛的哲学家和作家 被认为是最 有影响力和标志性的科学家和 历代知识分子。一种 德国-瑞士诺贝尔奖获得者爱因斯坦 经常被视为父亲 现代物理学。[2]他收到了 1921 年诺贝尔物理学奖“因其 对理论物理学的服务,以及 特别是因为他发现了 光电效应定律”。[3]
【问题讨论】:
-
urllib用于获取页面,BeautifulSoup用于解析 HTML。尽管还有其他方法可以做到这一点,但请在 StackOverflow 本身上搜索它们。这已经讨论过很多次了。 -
你想要它在什么标记中?媒体维基,html?