【问题标题】:I want to scrape data within a local web directory我想在本地 Web 目录中抓取数据
【发布时间】:2014-02-03 09:47:34
【问题描述】:

所有页面都通过一些href 元素连接。第一页被命名为mainpage.html。现在我想从所有网页中删除 <image> 标签 并显示<div id = "pB"> 中的元素。

我不想手动将图像标签从一个页面删除到另一个页面,我想要一个通用的方法来达到这个目的。如有任何建议或疑问,您可以问我,提前谢谢。

树的结构是

<html> -> <body> -> <div id= pB>

【问题讨论】:

标签: javascript php html strip-tags


【解决方案1】:

由于您的项目的结构和目标对我来说并不完全清楚,因此我将尝试为您提供一些我可以识别的各个方面的提示。我假设在 PHP 中有一个解决方案。

从您的 mainpage.html 中查找所有页面: Regexp for extracting all links and anchor texts from HTML

甚至更优雅

Regexp for extracting all links and anchor texts from HTML

或者,您提到了“本地网络目录”,因此您还可以通过

获取所有文件

http://de1.php.net/manual/en/function.glob.php

假设您在 $array 中拥有要解析的文件的所有文件名,您可以遍历该数组,打开每个文件并使用此处提到的修改

http://www.php.net/manual/en/function.strip-tags.php#86964

然后您要么保存修改后的页面,要么将它们显示在您的 div 中。

希望这会有所帮助。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2011-09-25
    • 1970-01-01
    • 2021-03-18
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-02-22
    相关资源
    最近更新 更多