【问题标题】:What is meant by unstructured data? In the field of using ETL tools to work on data?非结构化数据是什么意思?在使用 ETL 工具处理数据的领域?
【发布时间】:2015-09-01 17:29:06
【问题描述】:

我和一位队友正在讨论我们的工作经验,他说他曾使用名为 Informatica 的工具工作。他的工作涉及从 EDI 文件中提取所需信息并对其进行转换,然后将它们加载到数据库中。 他说 EDI 文件具有非结构化数据,而不是像 .CSV 和 .SQL 这样的格式,并且在 EDI 文件中,列由“|”分隔符号。

在我看来,我认为 EDI 和 CSV 之间没有任何区别,只有 CSV 是“,”分隔,EDI 是“|”那么为什么EDI文件会被归类为非结构化数据呢?

【问题讨论】:

  • “EDI”是一个非常通用的术语。查看the EDI tag,“电子数据交换是结构化数据直接从一个组织的一个计算机系统传输到另一个组织的计算机系统。”必须完全指定数据的结构,否则接收系统将不知道如何处理它。
  • 那么您的意思是说 EDI 文件是非结构化的并不完全正确?
  • 那么非结构化数据有什么例子呢?是的,你说的很有道理。
  • 几年前,我继承了一个发送数据库报告的 EDI 项目,我们根据行号和固定宽度的子字符串提取数据。它非常脆弱,但报告格式是指定的,这是我们必须处理的全部内容。
  • 认为您不清楚“结构化”。我对结构化的解释是“文件的语法语义得到了很好的描述”。这对于 edi 来说通常是正确的(因为它必须被另一个组织理解),对于 csv 来说通常是正确的——但并非总是如此。由一个人撰写的电子邮件正文通常被认为是非结构化的。电子邮件的标题是结构化的。 HTML 是结构化的 - 但内容通常不是结构化的。可能队友认为“表格数据”是结构化的,这是真的,但并不意味着 edi 是非结构化的。 Edi 大部分不是表格数据。

标签: csv edi


【解决方案1】:

传统的 EDI 不是非结构化的。 EDI 通常遵循某种标准(X12、EDIFACT、TRADACOMS 等),这些标准专门定义了数据的结构。 XML、CSV 和分隔文件也是结构化的。它们具有定义的字段分隔符和记录终止符。

非结构化数据的一个例子是一个 Excel 文件,其中包含多个专有格式的数据。将没有记录标识符,数据解析器将无法理解数据是什么。它会显示为数据/文本流,但没有映射器需要翻译/集成的任何上下文。 Word 文档或 PDF 也可以被视为“非结构化”。

【讨论】:

    猜你喜欢
    • 2015-04-03
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-07-17
    相关资源
    最近更新 更多