【发布时间】:2012-06-10 02:40:04
【问题描述】:
我想从抓取的 html 网页中提取文本。我正在使用优秀的开源 Boilerpipe 库来做到这一点。但是,使用 Boilerpipe 我只能得到原始文本。除了原始文本之外,我还需要捕获包含原始源格式信息的文本,并内联所有 css 样式信息。
有没有办法使用 Boilerpipe 或任何其他 java 库来做到这一点,最好是开源的?
【问题讨论】:
-
降级原因?当然,我确实在 Google 上搜索过信息。遇到了 jericho html 解析器,它似乎具有内联所有 CSS 的能力。但是,想坚持Boilerpipe。即使是关于如何开发具有此功能的新提取器的指针也会有所帮助。 :)
标签: java extraction boilerpipe