【问题标题】:Parse meta tag and get HTML content from body with Tika使用 Tika 解析元标记并从正文中获取 HTML 内容
【发布时间】:2013-02-25 16:25:34
【问题描述】:

我使用出色的 Apache Tika 库解析文件。我想用我自己的解析器提取元标记,然后只从<body>-tag 中获取内容作为 HTML 并将其存储在数据库中。

我现在已经尝试了几个小时/几天 :-(,但找不到解决方案:

  • 当我使用ToHTMLContentHandler after <body>-tag 时,我得到一个没有<html>-tag 的无效命名空间的异常。
  • BodyContentHandler 只返回没有 HTML 标记的正文。
  • tika-app 似乎使用TransformerHandler 来获取 HTML(我以前从未听说过这种处理程序。)我可以使用它从<body>-tag 获取 HTML 并解析元-给自己贴标签?这比使用ToHTMLContentHandler 更好吗?

【问题讨论】:

    标签: java xml-parsing apache-tika


    【解决方案1】:

    【讨论】:

    • 谢谢,我不知道这些有趣的文章,但它们并没有解决我的问题。当我伪造<html>-start 元素时,我结束了使用TransformerHandler,它在<body> 标记之后也有效。
    • 很高兴来到这里!如果您对您的问题有一些解决方案,您可以在此处发布并将此线程标记为“已回答”。因此,其他有类似问题的人可以从这里获得参考。
    • 很难发布我的解决方案的通用版本,这只是一个 hack。如果其他人有类似的问题,我建议他查看tika-app 的来源并阅读有关 XSLT 处理的更多信息。
    猜你喜欢
    • 2015-07-02
    • 2015-09-17
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-02-07
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多