【发布时间】:2013-11-07 18:42:01
【问题描述】:
对于一个大学项目,我正在创建一个包含一些后端算法的网站,并在演示环境中测试这些算法,我需要大量假数据。为了获得这些数据,我打算抓取一些网站。其中一个网站是 freelance.com。为了提取数据,我使用了简单的 HTML DOM 解析器,但到目前为止,我一直未能成功获得所需的数据。
这是我打算抓取的页面的 HTML 布局示例。红色框标出所需数据。
这是我在学习了一些教程后编写的代码。
<?php
include "simple_html_dom.php";
// Create DOM from URL
$html = file_get_html('http://www.freelancer.com/jobs/Website-Design/1/');
//Get all data inside the <tr> of <table id="project_table">
foreach($html->find('table[id=project_table] tr') as $tr) {
foreach($tr->find('td[class=title-col]') as $t) {
//get the inner HTML
$data = $t->outertext;
echo $data;
}
}
?>
希望有人可以为我指明正确的方向,让我知道如何让它发挥作用。
谢谢。
【问题讨论】:
-
查看原始源代码
ctrl+u,数据在table[id=project_table_static] -
project_table_static 不起作用。
标签: php parsing simple-html-dom