如何从 simpleXML_Element_Object 中抓取内容？答案

【问题标题】：How to scrape content from the simpleXML_Element_Object?如何从 simpleXML_Element_Object 中抓取内容？
【发布时间】：2012-12-23 14:35:51
【问题描述】：

我正在尝试从任何维基页面右侧的维基百科信息框中抓取内容。

我正在使用 DOMXpath 来抓取内容。

在this 链接的信息框（在右侧），我正在尝试抓取Traded as 部分。但是在页面源中它是由多个 href 组成的。

Traded as:  NASDAQ: GOOG
            NASDAQ-100 Component
            S&P 500 Component

我的 SIMPLE_XML_Element_Object 看起来像这样

SimpleXMLElement object {
 @attributes => array(1) (
[class] => (string)
)
 th => SimpleXMLElement object {
@attributes => array(2) (
  [scope] => (string) row
  [style] => (string) text-align:left;
)
a => (string) Traded as
}
td => SimpleXMLElement object {
@attributes => array(2) (
  [class] => (string)
  [style] => (string)
)
a => array(4) (
  [0] => (string) NASDAQ
  [1] => (string) GOOG
  [2] => (string) NASDAQ-100 Component
  [3] => (string) S&P 500 Component
)
}

这就是我试图抓取的内容。

foreach ($xmlElements->xpath("//div[@id='mw-content-text']/table[@class='infobox vcard']/tr") as $node) 
{
   $name = (string)$node->th;
   if(empty($name))
     $name = (string)$node->th->a;
   if(is_array($node->td->a))
       $value = implode('~', (string) $node->td->a);
    else
       $value = (string) $node->td->a;
}

但是我无法获得形成为"NASDAQ: GOOD ~ NASDAQ-100 Component ~ NASDAQ-100 Component" 的值，而我仅获得了"NASDAQ" 的值，这不是必需的。

如果是数组，如何从节点中获取值？

希望我的问题很清楚。任何帮助将不胜感激。

【问题讨论】：

标签： php dom xpath scrape

【解决方案1】：

请看http://www.laprbass.com/RAY_temp_user1518659.php

输出：string(64)“纳斯达克：GOOG ~ NASDAQ-100 成分股 ~ S&P 500 成分股”

如果你只使用原生 PHP 函数，这真的很容易做到！

<?php // RAY_temp_user1518659.php
error_reporting(E_ALL);
echo '<pre>';

// ACQUIRE THE DOCUMENT
$url = 'http://en.wikipedia.org/wiki/Google';
$htm = file_get_contents($url);

// ACTIVATE THIS TO SEE THE ENTIRE DOCUMENT
// echo htmlentities($htm);

// ISOLATE THE "TRADED AS" PART
$sig = 'Traded as';
$arr = explode($sig, $htm);
$htm = $arr[1];
$sig = '</tr>';
$arr = explode($sig, $htm);
$htm = $arr[0];

// REFORMAT THE DATA INTO A TILDE-SEPARATED STRING
$new = trim(strip_tags($htm));
$new = explode(PHP_EOL, $new);
$new = implode(' ~ ', $new);

// SHOW THE WORK PRODUCT
var_dump($new);

最好的问候，~雷

【讨论】：

感谢您的回答。如果我能够按照我的代码过程（我在问题中使用的那个）得到答案，我会更高兴。也让我知道我哪里做错了。
我也想逐个节点解析。不想每次都解析整个 HTML。
我无法开始弄清楚您的代码可能做错了什么，因为 SimpleXML 隐藏了 var_dump() 中的一些必需信息。 DOMXpath 只是不适合这项工作的工具。并且没有“逐个节点的优势——无论你如何尝试解析它，都必须阅读整个文档。我能为你做的最好的事情就是发布一个经过测试和工作的代码示例，我有这样做了。FWIW 已在其他公司页面上进行了测试，并且总是得到合理的响应。尝试在 $url 变量中将“Google”更改为“IBM”，您将看到它是如何工作的。
请检查。它似乎没有给出 '~' 分隔的输出。只给出输出，没有任何分离。
请检查什么？我在这里看到波浪号：laprbass.com/RAY_temp_user1518659.php

【解决方案2】：

您是否尝试过将数组输出为 print_f($value) 以查看它是否包含您需要的数据？如果所有股票都有相同的模式并且你用“〜”将它们内爆，我相信数组的第一个元素将包含“纳斯达克：好”，第二个“纳斯达克100成分”，所以通过输出第二个元素数组，您将获得所需的数据。

【讨论】：

我已经尝试过 var_dump ，它只显示“纳斯达克”，我无法获得所有值。我的代码中缺少某处。请查看页面源并尝试找到它。
你将 NASDAQ 作为 td 的第一个“a”，尝试 foreach $node->td->a as foreach($node->td->a as $subnode)
如果它是一个我可以使用 foreach 的数组则更好，否则只需打印它。