华为技术有限公司大数据领域总经理朱照生:大数据岂止于大——让数据“慧”说话
我是华为负责大数据领域的。刚刚国信证券廖总讲了数据在于洞察,我自己15年前进华为的时候是做主机数据管理系统的。但不幸的是,我自己到今天都不知道大数据该用什么样的概念描述它,外面有很多很流行的概念。这些概念横看成岭侧成峰。
我的演讲很短,大概只有15分钟到20分钟的时间,跟大家讲一下我自己这几年的研究和想法,这些研究和想法可能和当前一些主流的观点并不完全一致。
我们首先看整个科学的发展。这个片子很多人都看过,原标题叫《科学的四个时代》或者叫《第四范式》,但是我更愿意把它叫成是“迭代”。人类最早的信息记录和处理方式,很朴素,没什么工具可利用,结绳记事也许是最早的一种信息技术了,用于当时的农耕生产。
发展到用望远镜夜观天象,发现了日心学说。只要我们拉远一点看,就会发现科学每个阶段的发展都是对前一个时代的迭代而进化,具体的迭代这里不详细讲。如有了理论科学之后,发现了世界不是以地球为中心,可能是以太阳为中心,今天发现太阳也只是宇宙的一部分。
所 以到了今天,前段时间讲工业4.0,讲工业化和信息化的结合,讲大数据。其实我们会发现,大数据就是对前面时代的迭代,如果拥有大数据并用起来,就会促进 整个生产力的发展。比如前面的嘉宾讲,现在低头看手机,不管是食堂里面还是地铁上面,成为了一种普遍的现象。那么,这对银行是冲击还是一种机会?我本人更 愿意说它是一种机会。比如说我自己,我记得我有5、6年没有去过银行的网点,全部是通过网上银行或者手机银行办理。那么这实际上带来一种生产力的解放和业 务服务能力的提升。我想科学的发展本质上就是后面一个时代对于前面时代的迭代,从而提升社会生产力,而不是单纯的一个时代。回到今天的主题,大数据,,从 我自己的研究和产品开发来看,大数据最重要的是要搞清楚它的本质到底是什么?我们要如何运用它?
我 认为大数据在本质上是我们这个物理世界,在数字世界中的一个映像,就像我们以前的照片一样,从黑白照片到彩色照片,从300万像素到今天1千万的像素。我 们所有的日常行为都会在计算机的世界里产生一个映像,那个映像如果越精确、越全面,就越能接近这个物理世界。所以,我认为大数据本身是物理世界的一个映 像,这是最本质的。
还有一个观点,大数据到底是关联关系还是因果关系?目前很多人包括很多书,讲大数据本身是一个关联关系,通过关联关系找出了一些现象,这个观点特别在互联网领域很流行。
我 觉得这个可能值得商榷。我认为大数据其实讲的是因果关系,而不是关联关系,为什么呢?我们仔细回顾一下,所有科学技术的发展,一定是因果关系促成的。举一 个例子,深圳,我们在海边,海边一到下雨的时候,我们经常看到海面上的海鸥、海燕会低飞。有人说,这是关联关系,因为下雨了,下雨跟它低飞没有必然的因果 关系,只是一个关联现象,所以大数据强调的是因果关系。
但是仔细看一下,如果你把数据的维度放大一点,下雨低飞,增加一个维度——气压,你看看气压的变化。下雨之前,气压会变低,那么气压变低是不是海燕低飞的原因呢?其实也不是。
但是如果这个时候你把数据再加一个维度,气压变低之后,海里面的鱼和虾的浮游状态变浅了。因为氧气不够,它们要浮游、要变浅、头要冒上来。把数据加到这个维度的时候,你就会发现,这些现象是有一个因果关系的,而不仅仅是关联关系。
这 个是我们在做这么多年数据研究之后的观点,我们认为如果只看到大数据的关联关系,我认为只是一个表象或者是一个侧面。如果你掌握的数据足够多,比如说金融 服务,你知道我们每个人心里想什么,看看70、80后金融消费背后真正的原因是什么?是因为钱多钱少而采取不同的消费方式呢?还是因为市场本身变大了?把 这个本质关系找到之后,才可能更好地服务于不同的群体,然后看到不同群体之间最本质的因果关系是什么。我想,这应该是整个大数据甚至未来云平台对于金融服 务的一个关键,而不仅是看到一些关联的表象,这是我们的一个认识。
大数据相对于传统的数据来说,它带来最根本的变化我认为是消费模式的变化。两年前,在华为每年一度的HCC大会上也说了,大数据带来最本质的变化就是数据消费模式的变化。
这 种消费模式的变化,打开看有两点。第一点是技术的变化。你用什么样的技术来消费、来处理你的数据?这里不是说30年前以“记录”为主的数据技术是不对的, 但是至少是不够的。就像一个人胃里消耗的食物的种类,取决于人的胃酸浓度和胃酸类型一样,一个幼儿是没有办法和成人比的。我们如果再拿30年前的技术去消 化、去消费,今天我们所拥有的数据,很显然是不适合的。
所以我认为,消费模式的第一个变化是消费技术的变化。你能够处理什么样的数据,取决于你用什么样的技术。最终用户的行为数据、位置信息、偏好,所有的数据上来之后,你还用30年前的技术可能是不够的。
消 费模式的第二点变化是消费过程中“角色”的变化,用户在整个数据消费的链条里面,他到底是消费者还是生产者?这个界限已经不再那么清晰了。比如说我们每个 人,我每次通过手机银行或者网上银行办业务的时候有感触,我每次手滑过屏幕,看过哪些轨迹、访问哪些路径之后,信息其实是我产生的。如果把这些信息记录下 来,再回馈到银行信息系统的后端,再分析页面的设置是否合理?用户的行为偏好经常访问哪些页面、看哪些产品?这样回过头来再服务这个用户就会更好。
这 个数据的消费过程,本身也是数据的生产过程,就看你后端有没有这个数据处理的能力,把这些数据收集起来、采集起来,并加以分析、利用。所以我认为这两点: 一个是技术的变化、一个是数据生产消费角色的变化。这两个变化是未来大数据放在金融行业里面,可能在其它行业里面也一样的,就是大数据时代所带来的变化。
好了,问题就来了,大数据为什么是今天?为什么是2013、2014年,而不是2003年?
第 一、在硬件平台上,由于计算能力随摩尔定律发展至今天,大量的计算不再依靠大型机、小型机了,包括银行的计算也可以不再依靠大型机、小型机,通用X86一 样可以处理,而且处理得更好。今天在座各位的手机的计算能力,和上个世纪60年代一台大型机的计算能力能力相当甚至超出。
第二、在软件平台上,今天有很多完善的并行处理架构出来了,如Hadoop、Spark、Storm等,可以很好的处理各类数据。
第三个原因,跟在座每个人口袋里的手机相关。今天手机里有各类传感器和各类APP,这些传感器和APP产生了大量的数据。为什么大数据在今天这么火热?是因为今天有了大量的数据,是因为今天在技术面上已经可以处理大量的数据。
那 么,如何用好大数据呢?如果真的把大数据用好,不是去谈多少个V,这些个V都是从概念上描述,没有告诉我们怎么去做,我到现在也不知道大数据概念是用三个 V来描述更精确一些,还是用五个V来描述更全面一些。,以华为在通信运营商和金融行业的实践来看,用大数据的时候有三个地方是非常重要的:
第 一个,一定要有数据。我发现每个行业里面实际产生的数据量,要远远大于其所采集的量,而真正拿来用的数据又只是所采集的一小部分。包括今天在座的各个银 行,大家可以自己看一下。你们所采集的数据量,大概只是你所有系统产生数据量的30%到50%,不会超过50%,真正拿来用的又是这一小部分中的一小部 分。所以第一点,你要把数据采集起来。
第 二个,速度。速度是什么意思呢?我们每天喜欢看明天的、而不是昨天的天气预报,分析大数据一定要快,营销学里面有一个两秒定律,各位做营销的应该比我更清 楚,就是比别人快两秒。那么就要求我们做数据分析的时候,一定要做到实时性,慢了就成“昨天的天气预报”了。金融行业的数据处理也不例外,如果还用传统的 数据技术,也许你的客户等你发现的时候,已经成为别家金融机构的服务对象了,所以速度很重要。
第 三个,跟我们每个人都相关的,就是隐私和安全怎么办?这个里面涉及两方面,一个是技术面能不能确保数据本身的可靠性、完整性,平台中的数据是不是很容易被 泄露?还有一个是政策和运行规范方面,不同的数据应该有不同的运行规范或机制。同时,“隐私”的边界,不同的群体或个人会不一样,相同的群体或个人,不同 的时间,“隐私”的边界也不一样。也许未来20年或10年后我们会发现,隐私也许是恐龙,不存在,也许成了奢侈品,只有少数群体拥有。
从这几年的实践看,这三个是把大数据如何用起来要着重考虑的地方。
接下来我顺便讲一下华为大数据产品的由来,华为大数据平台的名字叫FusionInsight,FusionInsight做为独立的产品比较年轻。2013年9月在华为的HCC上第一次对外发布的,以前是做作为组件来配套其他产品的。
我们最早大概在03年底的时候,跟进业界的一些论文研究。到2007年社区有了开源的项目Hadoop,那时我们的研究团队就是研究怎么把开源的东西用在企业生产系统中。
到 2011年大数据技术作为配套组件使用。2011年深圳大运会,就有用大数据系统来保障整个通讯网络的数据管理,打一个电话4秒钟大概有20多条信令记 录。这个全程全网的信令消息非常庞大。也是在2011年,我们和全球最大的银行开始了大数据上的合作,当然今天合作的银行更多了。从2011年起,华为在 大数据研发中投入了很多,FusionInsight不仅仅可以让数据分析得很快,同时,FusionInsight平台本身对系统中数据的可靠性、完整 性实现了非常严密的保护,,包括FusionInsight解决了分布式文件系统的明文存放问题、分布式系统中的分权分域权限管理难题;另 外,FusionInsight还解决了,如何让银行现有数据库、数据仓库中各类表,可以很平滑、很方便的导入到大数据平台中,且原有的索引关系可以不 变,FusionInsight在易用性、可靠性等方面方面做了大量的工作。
华 为大数据平台FusionInsight是在13年的时候,第一次对外发布。这个名字也体现了华为大数据平台的特征,Fusion是融合,这个平台既可以 处理非结构化数据,也可以处理结构化数据,既可以做批处理,也可以做近线、在线的处理,还包括流式数据的处理;Insight体现洞察力,不仅提供了百万 维特征的分析建模能力,而且给上面的应用提供了分布式运行框架,让现有的应用可以平滑、无损的跑在FusoinInsight平台上,这就是华为整个大数 据平台的定位,目的是让企业拥有的全部数据真正用起来,而不仅是存在那里,,让数据有个可以说话的平台、让数据“慧”说话。
除 了在产品上持续投入,华为在开源社区也在持续贡献,以促进整个大数据生态的发展。华为在社区贡献排名是第四。很奇怪在排名前10的玩家中,看不到任何IT 设备厂商,除了华为这一家设备厂商,所以在IT设备厂商中,华为的社区贡献排名是第一的。大数据是开放的生态,需要大家持续的回馈社区,这是平台厂商基本 的投入和能力,这样才能更好服务于企业。今天有个颇为流行说法是风口浪尖猪都会飞。但我觉得能飞得好、飞得远的一定不是猪,尤其在专业的金融领域、在需要 大投入的大数据平台领域。
这 一页是华为近几年来和国内的几大银行,包括国有大行和先进的股份制银行的合作案例。在实践中,我发现,国内的银行在技术的要求上,非常严谨,一点都不弱于 发达市场的银行。这些银行不论是做征信系统、营销系统,还是历史明细等,都投入了大量的人力、物力来做PoC验证,做完PoC,他们就有了共同的选择,就 是华为的Fusionlnsight。
最 后一个例子,是生命科学领域的。在座的都是金融人士,我们金融行业要求所有的数据是15年。而我们的生命科学数据、医疗卫生数据等,是需要终生可用的,如 基因数据是70年。我们和业界一些做基因的公司也在合作,怎么让这个数据不仅能够长久的保存起来、还能动态地反映我们每个人的健康状态,让大数据可以服务 于我们每个人的生命本身。
今天的大数据才刚刚开始,就像今天的互联网金融或金融互联网。我相信,大数据的应用会越来越广泛、万紫千红。华为大数据平台FusionInsight就是要做这万紫千红底下的土壤,也相信大数据金融服务会像明天的映日荷花一样。
谢谢!
主 持人廖亚滨点评: 谢谢朱总有点科普知识的一个演讲!我个人觉得,确实,华为能成为一个大公司,其实是智慧的原因,而不是聪明的原因,聪明只能作为小公司。从朱总的演讲里, 大家可以看到,在这样一个互联网时代,消费者本身成为大数据的生产者。大数据源源不断地回到商家里面,商家要有相应的一些技术去快速地处理,同时要保护消 费者的权益,不把消费者的数据泄漏出去。
同时,数据是接下来消费者行为的因,前面所说的洞察力,我从朱总这里得到了验证,就是大数据是因,你的分析结果是果,就是对未来你的商业行为、对未来客户行为的一个洞察力。