【发布时间】:2013-09-25 06:40:20
【问题描述】:
我要存储:
- 产品名称
- 类别
- 子类别
- 价格
- 产品公司。
在我的名为 products_data 的表中,字段名称为 PID、product_name、category、subcategory、product_price 和 product_company。
我在 php 中使用 curl_init() 函数来首先废弃网站 URL,接下来我想将产品数据存储在我的数据库表中。这是我到目前为止所做的:
$sites[0] = 'http://www.babyoye.com/';
foreach ($sites as $site)
{
$ch = curl_init($site);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$html = curl_exec($ch);
$title_start = '<div class="info">';
$parts = explode($title_start,$html);
foreach($parts as $part){
$link = explode('<a href="/d/', $part);
$link = explode('">', $link[1]);
$url = 'http://www.babyoye.com/d/'.$link[0];
// now for the title we need to follow a similar process:
$title = explode('<h2>', $part);
$title = explode('</h2>', $title[1]);
$title = strip_tags($title[0]);
// INSERT DB CODE HERE e.g.
$db_conn = mysql_connect('localhost', 'root', '') or die('error');
mysql_select_db('babyoye', $db_conn) or die(mysql_error());
$sql = "INSERT INTO products_data(PID, product_name) VALUES ('".$url."', '".$title."')"
mysql_query($sql) or die(mysql_error());
}
}
我对如何在表中插入数据的数据库部分有点困惑。有什么帮助吗?
【问题讨论】:
-
我只是猜测您不是该域的所有者,对吧?所以你只是在偷别人的努力......
-
作为对您的回答的回应:什么不起作用?你调试了什么?变量是否包含任何数据......等等等等
-
Aashi,我正在使用Goutte 用于类似目的。它允许使用 CSS 选择器来检索 HTML 文档的一部分。如果您不需要完整的无头浏览器系统,可以使用单独的 Symfony 组件。
标签: php curl web-scraping