【发布时间】:2016-11-08 14:18:53
【问题描述】:
我使用Python3 和newspaper 库。据说这个库可以创建一个Source 对象,它是一个新闻网站的抽象。但是如果我只需要某个类别的抽象呢?
例如,当我使用this url 时,我想获取'technology' 类别的所有文章。相反,我从'politics' 获得文章。
我认为在创建Source 对象时,报纸只使用域名,在我的例子中是www.kyivpost.com)。
有没有办法让它与http://www.kyivpost.com/technology/ 之类的网址一起使用?
【问题讨论】:
-
您是否找到了使用报纸模块获取类别的方法,如果可以,请发布答案
-
Newspaper 无法做到这一点开箱即用。 您必须在报纸周围添加一些额外的代码才能在 Kyvi Post 的网站上查询这个单一类别。此外,该类别下的许多文章都需要订阅才能访问,这又产生了另一个问题。
标签: python python-3.x parsing web-scraping python-newspaper