【发布时间】:2013-03-11 16:34:23
【问题描述】:
我正在寻找与 jQuery 或 Cheerio 具有相似 API 和用法的库。
我的用例是: 为包含 javascript/css 文件引用的任何脚本或链接标签解析 HTML 文件。
【问题讨论】:
标签: jquery python api node.js cheerio
我正在寻找与 jQuery 或 Cheerio 具有相似 API 和用法的库。
我的用例是: 为包含 javascript/css 文件引用的任何脚本或链接标签解析 HTML 文件。
【问题讨论】:
标签: jquery python api node.js cheerio
jQuery 的 Python 等效项是 pyQuery。在该链接下,您可以找到使用示例。您也可以访问PyQuery on GitHub。
【讨论】:
虽然 pyQuery 是 jQuery 的等价物,根据您的用例判断我认为像 BeautifulSoup 这样的东西可能更适合您想要做的事情。
以下摘自美汤官方网站:
Beautiful Soup 是一个 Python 库,专为快速周转而设计 像屏幕抓取这样的项目。三个功能使它变得强大:
Beautiful Soup 提供了一些简单的方法和 Pythonic 习惯用法 导航、搜索和修改解析树:一个工具包 剖析文档并提取您需要的内容。它不需要 编写应用程序需要很多代码
Beautiful Soup 自动将传入的文档转换为 Unicode 并将传出文档转换为 UTF-8。你不必考虑 编码,除非文档没有指定编码并且 Beautiful Soup 无法自动检测到一个。然后你只需要指定 原始编码。
Beautiful Soup 位于流行的 Python 解析器(如 lxml 和 html5lib,允许您尝试不同的解析策略或 以速度换取灵活性。
Beautiful Soup 会解析你给它的任何东西,然后生成树 为你遍历的东西。您可以告诉它“查找所有链接”,或者 "查找类 externalLink 的所有链接",或"查找所有链接 其网址匹配“foo.com”,或“查找加粗的表格标题 文本,然后给我那个文本。”
【讨论】: