【发布时间】:2012-07-16 09:51:29
【问题描述】:
我正在尝试检索网页的内容并检查该页面是否包含我正在监控的某些错误关键字。 (而不是每次都手动加载每个 URL 来检查网站,我希望以编程方式执行此操作并在错误发生时将其标记出来)
我已经尝试过 XMLHttpRequest。我能够获取 HTML 内容,就像我在页面上“查看源代码”时看到的一样。但是我监控的页面在 Sharepoint 上运行,并且 Web 部件是动态生成的。我相信如果在加载这些部件时发生错误,我将无法将它们标记出来,因为我提取的 HTML 将不包含错误,而只是通常的 webpart 路径。
cURL 似乎也是如此。我刚刚阅读了有关 DOMDocument 的内容,我想知道 DOMDocument 是处理代码还是只是将 HTML 分解为层次结构。
我只希望获得 URL 的内容。 (就像您在 IE 中将网站另存为 txt 而不是 HTML 时得到的一样)。或者,如果我可以进一步处理 HTML,那也很好。我怎样才能做到这一点?任何帮助将不胜感激。 :)
【问题讨论】:
-
要明确,您想从网络中删除 html 标记并仅获取剩余数据吗?
-
您好 Nish,我希望获得处理后的内容,例如在加载 javascript 并生成内容之后。没有带有 javascript 和函数的视图源,然后剥离了它们的标签。我应该举一个例子来更好地解释自己:)
标签: php javascript curl xmlhttprequest domdocument