【问题标题】:Extract HTML article text with inline CSS使用内联 CSS 提取 HTML 文章文本
【发布时间】:2012-06-10 02:40:04
【问题描述】:

我想从抓取的 html 网页中提取文本。我正在使用优秀的开源 Boilerpipe 库来做到这一点。但是,使用 Boilerpipe 我只能得到原始文本。除了原始文本之外,我还需要捕获包含原始源格式信息的文本,并内联所有 css 样式信息。

有没有办法使用 Boilerpipe 或任何其他 java 库来做到这一点,最好是开源的?

【问题讨论】:

  • 降级原因?当然,我确实在 Google 上搜索过信息。遇到了 jericho html 解析器,它似乎具有内联所有 CSS 的能力。但是,想坚持Boilerpipe。即使是关于如何开发具有此功能的新提取器的指针也会有所帮助。 :)

标签: java extraction boilerpipe


【解决方案1】:

首先我应该说我从未使用过 Boilerpipe ... 甚至直到现在才听说过。

但是查看网站和 javadocs,我会说您不能使用它来提取带有样式的文本。基本的概念问题是该样式将/可以如何表示。例如,BoilerpipeExtractor 接口有 4 个getText 方法,每个方法都将提取的文本作为字符串返回。您将如何表示字符串中的样式?您必须嵌入某种标记,但是...

  • 什么样的标记,以及
  • 您如何将其与接口的描述相协调,接口的描述表明方法返回“文本”...而不是“带标记的文本”。

因此,我的评估是,使用 Boilerpipe 提取带有样式的文本是完全不可能的。因此,请选择您已经确定的其他替代方案。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2011-05-06
    • 1970-01-01
    • 2017-03-03
    • 2017-09-15
    • 2012-03-29
    • 1970-01-01
    • 2019-09-18
    相关资源
    最近更新 更多