【发布时间】:2011-03-22 23:30:50
【问题描述】:
我需要从各种 HTML 文件中提取大量数据,并且我必须为每种类型的 HTML 文件编写单独的脚本,以便正确解析出我需要的数据。
数据将位于文档的不同部分 - 例如,在文档类型 1 中,我需要的数据可能很好地位于带有 ID 的 DIV 中,但在文档类型 2 中,我定位数据的唯一方法可能需要找到包含它的特定模式的标签(如<div><b>DATA</div></b>)。
从到目前为止我能找到的一点点看来,DOMXPath 至少可以帮助我进行一些提取 - 我可以使用哪些其他函数,特别是在定位任意模式的第二个示例中标签的数量并获取它们的内容?
【问题讨论】:
-
简单的 HTML DOM 解析可以帮助你 --> simplehtmldom.sourceforge.net
-
这和PHP内置的DOM对象有区别吗?
-
记住窃取/抓取内容不是一件好事 :)
-
这是你老板告诉你的时候! :]
标签: php dom screen-scraping