【发布时间】:2013-02-25 16:25:34
【问题描述】:
我使用出色的 Apache Tika 库解析文件。我想用我自己的解析器提取元标记,然后只从<body>-tag 中获取内容作为 HTML 并将其存储在数据库中。
我现在已经尝试了几个小时/几天 :-(,但找不到解决方案:
- 当我使用
ToHTMLContentHandlerafter<body>-tag 时,我得到一个没有<html>-tag 的无效命名空间的异常。 -
BodyContentHandler只返回没有 HTML 标记的正文。 -
tika-app似乎使用TransformerHandler来获取 HTML(我以前从未听说过这种处理程序。)我可以使用它从<body>-tag 获取 HTML 并解析元-给自己贴标签?这比使用ToHTMLContentHandler更好吗?
【问题讨论】:
标签: java xml-parsing apache-tika