【发布时间】:2015-09-01 17:29:06
【问题描述】:
我和一位队友正在讨论我们的工作经验,他说他曾使用名为 Informatica 的工具工作。他的工作涉及从 EDI 文件中提取所需信息并对其进行转换,然后将它们加载到数据库中。 他说 EDI 文件具有非结构化数据,而不是像 .CSV 和 .SQL 这样的格式,并且在 EDI 文件中,列由“|”分隔符号。
在我看来,我认为 EDI 和 CSV 之间没有任何区别,只有 CSV 是“,”分隔,EDI 是“|”那么为什么EDI文件会被归类为非结构化数据呢?
【问题讨论】:
-
“EDI”是一个非常通用的术语。查看the EDI tag,“电子数据交换是结构化数据直接从一个组织的一个计算机系统传输到另一个组织的计算机系统。”必须完全指定数据的结构,否则接收系统将不知道如何处理它。
-
那么您的意思是说 EDI 文件是非结构化的并不完全正确?
-
那么非结构化数据有什么例子呢?是的,你说的很有道理。
-
几年前,我继承了一个发送数据库报告的 EDI 项目,我们根据行号和固定宽度的子字符串提取数据。它非常脆弱,但报告格式是指定的,这是我们必须处理的全部内容。
-
认为您不清楚“结构化”。我对结构化的解释是“文件的语法语义得到了很好的描述”。这对于 edi 来说通常是正确的(因为它必须被另一个组织理解),对于 csv 来说通常是正确的——但并非总是如此。由一个人撰写的电子邮件正文通常被认为是非结构化的。电子邮件的标题是结构化的。 HTML 是结构化的 - 但内容通常不是结构化的。可能队友认为“表格数据”是结构化的,这是真的,但并不意味着 edi 是非结构化的。 Edi 大部分不是表格数据。