【问题标题】:Extract structured data from plain text [closed]从纯文本中提取结构化数据[关闭]
【发布时间】:2012-02-03 11:35:52
【问题描述】:

在输入时我有一个纯文本(在我的情况下通常是 HTML)和一个“语法规范”(从纯文本中提取数据到结构化数据的某种方式),然后在输出时我需要一些结构化数据(JSON 很好,但也许还有更好的东西?)

是否有任何用于此任务的库?指定“语法规范”的好方法是什么? 解决此类问题的最佳方法是什么?

【问题讨论】:

  • HTML什么时候和纯文本一样了?
  • 从您的问题中不清楚您是否已经有语法规范。如果是,是哪种格式?
  • @DaDaDom 因为它纯文本......它的结构化是另一回事
  • 您的选择将取决于输出中所需的结构化数据类型!有 n 个可用的库

标签: java string json parsing structured-data


【解决方案1】:

一些基于语法的转换工具:

加法:

【讨论】:

  • 很遗憾没有。每个都有自己的声明性语言来定义转换规则。
【解决方案2】:

看看jsoup 用于HTML 解析和gson 用于Java 到JSON。

【讨论】:

  • 我喜欢 jsoup。但是,它还不够通用,但在我的情况下,它将是最实用的解决方案。
【解决方案3】:

要解析 HTML,您需要一个 DOM 解析器,它会根据 html 代码的质量使用您的语法规范来解析它,然后您需要提供一种您想要的数据结构类型,并且有图书馆为你做这些事情

【讨论】:

    【解决方案4】:

    如果纯文本文件的结构格式良好,为什么不使用 Java DOM API(或 JDOM)结合 DOCTYPE 来创建 DOM 对象?从那里,您可以使用 google-gson 库之类的东西遍历该对象并轻松将其转换为 JSON。

    【讨论】:

      【解决方案5】:

      看看jilapi

      这会接收非结构化的纯文本并给出结构化的 JSON。

      【讨论】:

        猜你喜欢
        • 2020-06-19
        • 2011-10-03
        • 2016-01-20
        • 1970-01-01
        • 1970-01-01
        • 2020-09-17
        • 1970-01-01
        • 2016-09-10
        • 1970-01-01
        相关资源
        最近更新 更多