使用内联 CSS 提取 HTML 文章文本

【问题标题】：Extract HTML article text with inline CSS使用内联 CSS 提取 HTML 文章文本
【发布时间】：2012-06-10 02:40:04
【问题描述】：

我想从抓取的 html 网页中提取文本。我正在使用优秀的开源 Boilerpipe 库来做到这一点。但是，使用 Boilerpipe 我只能得到原始文本。除了原始文本之外，我还需要捕获包含原始源格式信息的文本，并内联所有 css 样式信息。

有没有办法使用 Boilerpipe 或任何其他 java 库来做到这一点，最好是开源的？

【问题讨论】：

降级原因？当然，我确实在 Google 上搜索过信息。遇到了 jericho html 解析器，它似乎具有内联所有 CSS 的能力。但是，想坚持Boilerpipe。即使是关于如何开发具有此功能的新提取器的指针也会有所帮助。 :)

标签： java extraction boilerpipe

【解决方案1】：

首先我应该说我从未使用过 Boilerpipe ... 甚至直到现在才听说过。

但是查看网站和 javadocs，我会说您不能使用它来提取带有样式的文本。基本的概念问题是该样式将/可以如何表示。例如，BoilerpipeExtractor 接口有 4 个getText 方法，每个方法都将提取的文本作为字符串返回。您将如何表示字符串中的样式？您必须嵌入某种标记，但是...

什么样的标记，以及
您如何将其与接口的描述相协调，接口的描述表明方法返回“文本”...而不是“带标记的文本”。

因此，我的评估是，使用 Boilerpipe 提取带有样式的文本是完全不可能的。因此，请选择您已经确定的其他替代方案。

【讨论】：