清理内容：从亚马逊的内容中删除标记答案

【问题标题】：Sanitize Content: removing markup from Amazon's content清理内容：从亚马逊的内容中删除标记
【发布时间】：2011-01-31 09:13:13
【问题描述】：

我正在使用 Amazon Web Service 获取各种商品的产品描述。问题是亚马逊的内容包含有时会破坏我的网页布局的标记（例如未封闭的 DIV 等）。

我想清理从亚马逊获得的内容。我的解决方案是执行以下操作（到目前为止我的初始列表）：

在我开始尝试构建我的解决方案之前，我想知道是否有人有更好的想法（或已经存在的解决方案）。谢谢。

【问题讨论】：

【解决方案1】：

这是否是最好的主意：

删除多余的空格：

preg_replace('/\s+/', ' ', trim($v))

从 HTML 元素中删除属性：

preg_replace('/<([^\s>]+) [^>]+>/', '<$1>', $v)

移除特定元素：

preg_replace('/<\/?(div|span)[^>]*>/', '', $v)

【讨论】：