使用 Tika 解析元标记并从正文中获取 HTML 内容

【问题标题】：Parse meta tag and get HTML content from body with Tika使用 Tika 解析元标记并从正文中获取 HTML 内容
【发布时间】：2013-02-25 16:25:34
【问题描述】：

我使用出色的 Apache Tika 库解析文件。我想用我自己的解析器提取元标记，然后只从<body>-tag 中获取内容作为 HTML 并将其存储在数据库中。

我现在已经尝试了几个小时/几天 :-(，但找不到解决方案：

当我使用ToHTMLContentHandler after <body>-tag 时，我得到一个没有<html>-tag 的无效命名空间的异常。
BodyContentHandler 只返回没有 HTML 标记的正文。
tika-app 似乎使用TransformerHandler 来获取 HTML（我以前从未听说过这种处理程序。）我可以使用它从<body>-tag 获取 HTML 并解析元-给自己贴标签？这比使用ToHTMLContentHandler 更好吗？

【问题讨论】：

标签： java xml-parsing apache-tika

【解决方案1】：

检查以下链接是否对您有所帮助..

Content Detection, Metadata and Content Extraction with Apache Tika

Parsing HTML with Apache Tika

【讨论】：

谢谢，我不知道这些有趣的文章，但它们并没有解决我的问题。当我伪造<html>-start 元素时，我结束了使用TransformerHandler，它在<body> 标记之后也有效。
很高兴来到这里！如果您对您的问题有一些解决方案，您可以在此处发布并将此线程标记为“已回答”。因此，其他有类似问题的人可以从这里获得参考。
很难发布我的解决方案的通用版本，这只是一个 hack。如果其他人有类似的问题，我建议他查看tika-app 的来源并阅读有关 XSLT 处理的更多信息。

猜你喜欢

2015-07-02
2015-09-17
1970-01-01
1970-01-01
1970-01-01
2017-02-07
1970-01-01
1970-01-01
1970-01-01

相关资源

下载 2023-04-09
下载 2022-12-29
下载 2021-06-23

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode