【问题标题】:Is there any way to scrape a WordPress blog without being an owner of it?有什么方法可以在没有所有者的情况下抓取 WordPress 博客?
【发布时间】:2017-08-10 02:25:02
【问题描述】:

这可能听起来有点不道德,但事实并非如此 - 我被要求使用 WordPress 博客中的数据制作应用程序,但我现在无法讨论通过管理面板添加 JSON API 插件。所以我想知道是否有一种简单的方法可以从博客中获取所有帖子,只包含它们的标题、标签和内容。

【问题讨论】:

  • “但我现在无法讨论通过管理面板添加 JSON API 插件。” - 你能详细说明一下这条线吗?看来您需要一个刮板实用程序。 Python 有一个强大的库,但我认为你最好使用 BeautifulSoup。
  • @AlvinR​​eyes 从我的研究中可以看出,没有任何方法可以从博客中获取帖子数据,除非您添加一些插件来添加 JSON API 功能。所以我想知道我是否可以手动抓取它,或者是否有任何其他我可以使用的 API。
  • 这就是我的建议。您可以通过使用 BeautifulSoup(如果您使用 Python)或 JSoup(如果您使用 Java)刮掉内容来做到这一点。两者都是非常有用的 HTML 解析器。

标签: wordpress python-3.x scrape wordpress-rest-api


【解决方案1】:

事实证明,有一个非常简单的方法。然而,据我所知,这仅适用于托管在 wordpress.com 本身上的博客。这不需要任何身份验证,但您只会获得公开帖子。

https://public-api.wordpress.com/rest/v1.1/sites/$sitename.wordpress.com/posts/

$sitename 是站点 ID。这将引发一个相当全面的 JSON 响应,该响应将为您提供博客上所有公共帖子的标题、内容、标签等。很酷,但很难找到。

【讨论】:

    猜你喜欢
    • 2018-12-25
    • 2017-10-22
    • 1970-01-01
    • 2017-07-20
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多