数据架构——大数据

大数据的发展时间线如下图：

数据架构——大数据

大数据的发展从3个V到4个V再到现在有人提出5个V，人们不断的在扩展大数据的定义。但是目前普遍的大数据技术人员都认定大数据4个V的概念：

以非常大的数据量存储的数据（Volume）
数据的增长速度和处理速度很快（Volecity）
数据具有多源、多渠道、多平台和多架构的多样化（Variety）
数据价值具有低密度化（Value）

大数据的定义决定了大数据的特征：以非常大的数据量存储的数据；存储在廉价的存储器中的数据；通过分布式方法管理的数据；以非结构化格式存储和管理的数据。大数据环境中数据并不是以标准的结构存储的，而是以非结构化的形式存储的。当存在重复型记录时，同样的数据结构会一遍遍重复，大数据利用语境来识别重复记录的信息，这种语境信息需要对大数据记录进行解析，从重复性和可预见性的角度来看，大数据内部包含了结构化程度很高的数据。除了重复型的数据，大数据还包含非重复型非结构化数据，非重复型数据记录是指结构和内容完全相互独立的记录，非重复型数据的例子有：

电子邮件
呼叫中心信息
卫生保健记录
保险索赔信息
质保索赔信息

非重复型信息也包含指示性信息，但是在非重复型记录中找到的指示性信息是不规律的，非重复型数据中的语境信息完全没有模式可言。非重复型数据在重取时一定要抽取反应语境的数据，而语境的获得需要通过文本消岐操作。从大数据的基本意义来看，数据量和数据的业务价值之间实际上是不相匹配的。在MPP架构中，数据的解析在很大程度上影响了数据放置的位置，要求数据的记录放在不同的节点上。

大部分企业决策是基于结构化数据的，主要原因在于结构化信息易于自动处理。重复型非结构化环境中的分析原因包括以下方面：

记录的表现形式是统一的
记录通常短小而紧凑
容易找到记录中的语境信息，因而记录容易解析

非重复型非结构化记录的特征则正好相反：

记录的表现形式上不统一
记录有时小有时大甚至非常大
记录的解析非常困难，因为记录是由文本组成的，需要采用不同的方式处理

在非重复型非结构化数据中寻找语境最早使用的技术是NLP。但是NLP存在一些固有的缺陷，第一个缺陷是语境源于文本自身；第二个缺陷是NLP没有强调语气。由于NLP处理需要理解语句背后的逻辑，因此使用文本消岐的技术更加实用。在研究大数据语境话问题的另一种方法是MapReduce。MapReduce是一种面向技术人员的语言，可以用于完成大数据中各种有用的事情，由于MapReduce需要编写和维护很多代码，而且对于非重复型非结构化语境化复杂性过高，因此在非重复型非结构化语境中的应用遭到了限制。还有一种历史悠久的分析非重复型非结构化数据的方式为手工分析。进行手工分析最大的优势是不需要基础设施的支持，只需要能够阅读和分析信息的人，因此一个人可以直接对非重复型非结构化信息进行分析，而进行手工分析最大的缺点就是人类的大脑只能吸收很少的信息，无法和计算机相比。对于所有非结构化数据而言，用于分析之前都需进行语境化。但是重复型非结构化数据的语境化是简单而直接的，而非重复型非结构化数据的语境化却非常困难。重复型非结构化数据通常采用Hadoop读取，在读取数据块之后对数据进行解析，由于数据本质上是重复的，其解析过程非常简单，同时重复型非结构化数据的记录较小，语境很容易找到，在大数据环境中，解析数据并且将其语境化的过程可以通过定制程序来完成。当金星解析时，输出数据可以存放于多种格式中的任一种，格式之一是以选定记录的形式存放输出数据。当解析和选择过程之后，要从物理上重组数据。在物理重组上应该从数据用途和数据量来考虑，此外还有其它的考虑因素，例如将数据写入大数据环境中还是将数据写入某一索引异或是传送给某个标准的DBMS系统。

非重复型非结构化数据的语境化过程可以通过文本消岐（文本ETL）的技术来实现。文本消岐的目的是读取原始文本（叙事），并将这样的文本装载到一个分析数据库中：

数据架构——大数据

当对原始文本进行转换后，这些文本就会以某种规范化的形式进入分析型数据库，这样的分析数据库可以与其它分析数据库联合使用进而可以实现在同一查询中同时分析结构化数据和非结构化数据。分析数据库中的每个元素都可以直接连接到最初的源文档，当对文本消岐处理的准确性有疑问时，这种功能显得非常重要。此外，如果对分析数据库中数据的语境有所疑问，采用这种方法可以方便快捷的进行验证。文本消岐的输入可以来自多个不同的地方，最常见的输入来源是描述待消岐处理文档的电子文本，另一种重要的数据来源就是分类法，分类法对消岐过程至关重要。要执行文本消岐，需要将一个文档正确映射到一些在文本消岐过程中指定的参数上。当指定映射参数并完成映射过程后，就可以对文档执行操作了。同一类型的所有文档都可以采用同样的映射：

数据架构——大数据

几乎在所有的情形下，映射过程都是以迭代方式进行的。首先为一个文档创建第一条映射，然后再对少量文档进行映射处理，并由分析师查看映射结果。尽管此使文本消岐已经有了新的映射规范，但是分析师仍然决定要进行一些更改，并重新运行文档。采用迭代方法来创建映射是因为文档很复杂，并不能马上发现其中的很多细微之处：

数据架构——大数据

文本消岐的输入存在很多种形式，电子文档可以采用适当的语言、俚语、速记、评论、数据库条目以及许多其他形式。文本消岐需要能够处理所有形式的电子文本，此外电子文本可以采用不同的语言。文本消岐还可以处理非电子文本，这需要通过某种自动捕获机制对非电子文本进行处理，常用的如OCR处理。文本消岐的输出也可以采用多种形式，文本消岐的输出通常以平面文件格式创建，这种输出可以发送给任何标准的数据库管理系统或者Hadoop：

数据架构——大数据

文本消岐的输出可以存放到工作表区域中，而工作表区域的数据可以通过DBMS的装载工具装载到标准DBMS中：

数据架构——大数据

文档消岐的实际处理过程有很多特点，然而处理一个文档主要有两种途径——文档分片和指定值处理。文档分片是指对文档一个单词接一个单词地进行处理。文档分片的效果在于，在处理过程中文档仍然保持可识别的形态，尽管这是一种修正后的形态，实际上文档呈现出的是被碎片化的状态；指定值处理是对内联语境化处理时所采用的方式。有时，当文本为重复型时，就需要进行内联语境化处理，此时可以通过查找唯一的起始分隔符和结束分隔符来进行处理。当文本消岐无法以标准方式来处理文档中的文本时，需要对文档进行预处理：

数据架构——大数据

在企业信息处理时经常使用分类法，分类法在叙述性信息的消岐中发挥了重要作用：

数据架构——大数据

数据模型在传统上是一种知识性的指南，便于人们理解和管理结构化环境中的数据。分类法在非结构化环境中担负着同样的作用，虽然二者存在区别，但是作用上分类法和数据模型非常类似。分类法最适用于文本，简单的一种形式就是一个自会的关联列表，与分类法相关的还有本体，一个本体可简单定义为一个分类法，且在这个分类法中的元素存在着相互关联关系。通常，当为非重复型非结构化数据的文本消岐创建基础环境时，既可以使用分类法也可以使用实体或两者共用。

分类法需要其自身的关注和处理，通常对文本消岐这样的技术而言，在外部创建和管理分类法是非常有意义的。从逻辑上将创建和管理分类法的工作与文本消岐区分开是存在诸多原因的。主要原因在于集市抛开创建和管理分类法所带来的复杂性，文本消岐本身就已经非常复杂了。另一种解释这两个过程之间区别的方式是观察分类法在不同技术中的表现形式。在分类法管理领域中，分类法需要一种可靠而复杂的表示方法；但是在文本消岐领域中，分类法则需要以一系列单词对的形式来表示：

数据架构——大数据

分类法本身也可以以多种方式进行分类，如：同义词、列表、类别、首选等，分类法随着时间的推移需要进行维护，因为语言是不断变化的。