【发布时间】:2018-11-12 08:46:24
【问题描述】:
如何从格式未知的产品描述中提取规格(有时是无序列表,有时是 br 元素等),但它在前面看起来总是一样。
视觉效果是这样的:
一些描述文字,有时是一个句子,有时更多..
== 有时这里是空行,有时不是 ==
- 规格项目1
- 规格项目2
有没有办法在 PHP 中提取“通过它的视觉”?
例子:
<h2> desc <br>
<br>
> <strong> T Shirt</strong><br>
> Breathable mesh fabric<br>
> Reflective detail<br>
> Flat lock seams <br>
【问题讨论】:
-
你尝试了什么?
-
你想提取什么?你试过什么?
-
我只需要提取那个“规格列表”并且我尝试过: 1. 提取 dbl br elem 之后的所有内容。 - 不起作用,有时它只有 1、2。尝试 find > char,不起作用,有时它在顶部文本描述中,或者有时该列表在行首没有 >。我想有一种方法可以unHTML 它,但让视觉格式以相同的方式,然后以某种方式提取它.. 真的不知道如何移动它
标签: php text information-extraction