从网页中检索特定信息

【问题标题】：Retrieve specific information from a web page从网页中检索特定信息
【发布时间】：2016-04-13 12:22:11
【问题描述】：

我正在寻找一种使用 Qt 从网页获取特定信息的方法。到目前为止，我一直在使用 QNetworkAccessManager 并设法获得包含页面中所有内容的 HTTP 响应。

现在过滤此信息并解析 xml 以获取相关信息的正确方法是什么？例如，如果你想查询维基百科的信息，你将如何只保存信息而不是页面的源代码？

【问题讨论】：

【解决方案1】：

您可以解析内容，仅检索您需要的信息，然后将其存储。

Qt 为您提供了一些工具来帮助您做到这一点。

wiki 有更多相关信息。

您可以使用XML Handling classes，如果它是有效的 XML，您可以使用其他工具将损坏的 XML HTML 页面转换为wiki 中所述的有效 XML。

要验证和修复 HTML 文件，您可以使用 libTidy

【讨论】：