ES 复合查询

bool布尔查询有一个或者多个布尔子句组成 filter 只过滤符合条件的文档,不计算相关系得分 must 文档必须符合must中所有的条件,会影响相关性得分 must_not 文档必须不符合must_not 中的所有条件 should 文档可以符合should中的条件 filter查询只过滤符合条 ... »

hbase 面试问题汇总

一、Hbase的六大特点: (1)、表大:一个表可以有数亿行,上百万列。 (2)、无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态增加,同一个表中的不同行的可以有截然不同的列。 (3)、面向列:HBase是面向列的的存储和权限控制,列族独立索引。 (4)、稀疏:空(null)列并不占 ... »

DataFrame简介(一)

1. DataFrame 本片将介绍Spark RDD的限制以及DataFrame(DF)如何克服这些限制,从如何创建DataFrame,到DF的各种特性,以及如何优化执行计划。最后还会介绍DF有哪些限制。 2. 什么是 Spark SQL DataFrame? 从Spark1.3.0版本开始,DF ... »

简单介绍python的双向队列

介绍 大家都知道利用 .append 和 .pop 方法,我们可以把列表当作栈或者队列来用(比如,把 append 和 pop(0) 合起来用,就能模拟栈的“先进先出”的特点)。但是删除列表的第一个元素(抑或是在第一个元素之前添加一个 元素)之类的操作是很耗时的,因为这些操作会牵扯到移动列表里的所有 ... »

sqlserver简便创建用户并授权

很多研发人员程序连接SQL Server直接用的就是SA帐号。如果对数据库管理稍微严格一点的话,就不应该给应用程序这种权限,通常应用程序只需要进行增删改查,而很少有DDL操作,因此配置帐号时应该遵循“最小权限分配”的原则仅仅赋予所需的权限。 对于应用程序来说,最小的权限通常就是就是给予读权限,写权限 ... »

排序算法小结

排序是工作和生活中非常常见的一个问题。现在已经有比较成熟的排序技术,被广泛地应用于各种程序语言或数据库中。不同的排序算法有不同的性能和适用场景,下面的视频对比了 9 种排序算法的性能表现。排序算法依次为选择排序、希尔排序、插入排序、归并排序、快速排序、堆排序、冒泡排序、梳排序、鸡尾酒排序。 九种排序 ... »

Apache kylin概览

一、Apache kylin的核心概念 NEW - This denotes one job has been just created. PENDING - This denotes one job is paused by job scheduler and waiting for resour ... »

sqoop增量导入hbase

背景 因为hadoop/hive本质上不支持更新,所以hive不能够采用update行级别的维度数据的更新。可以采用的变通的方式。 hive和hbase结合 我认为这是首选的方式,hbase本质上也是不支持行级更新,只不过是追加行加上时间戳,然后取最新的时间戳的数据而已,但是对于我们来说是透明的。可 ... »

SQL Server数据仓库的基础架构规划

问题 SQL Server数据仓库具有自己的特征和行为属性,有别去其他。从这个意义上说,数据仓库基础架构规划需要与标准SQL Server OLTP数据库系统的规划不同。在本文中,我们将介绍在计划数据仓库时应该考虑的一些事项。 解决 SQL Server 数据仓库系统参数 数据仓库本身有自己的参数, ... »

hive基础总结(面试常用)

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。Metastore (hive元数据)Hive将元数据存储在数据库中,比如mysql ,derby.Hive中的元数据包括表的名称 ... »

python内存回收的问题

python实际上,对于占用很大内存的对象,并不会马上释放。 举例,a=range(10000*10000),会发现内存飙升一个多G,del a 或者a=[]都不能将内存降下来。。del 可以删除多个变量,del a,b,c,d办法:import gc (garbage collector)del ... »

数据安全小结

数据安全 安全体系 面对复杂的大数据安全环境,需要从四个层面综合考虑以建立全方位的大数据安全体系:边界安全、访问控制和授权、数据保护、审计和监控。如下图所示: 1、边界——限制只有合法用户身份的用户访问大数据平台集群 (1) 用户身份认证:关注于控制外部用户或者第三方服务对集群的访问过程中的身份鉴别 ... »

爬虫架构理解

摘要:前言:爬虫是偏IO型的任务,分布式爬虫的实现难度比分布式计算和分布式存储简单得多。 个人以为分布式爬虫需要考虑的点主要有以下几个:爬虫任务的统一调度爬虫任务的统一去重存储问题速度问题足够“健壮”的情况下实现起来越简单/方便越好最好支持“断点续爬”功能Python分布式爬虫比较常用的应该是scr ... »

xtrabackup部署以及使用

简介 备份mysql数据库一直是一个比较恶心的工作,主要就是备份的数据库比较大实在是慢。最近开始使用xtrabackup来备份数据库,速度上快了很多,尤其还原速度要快的多。下面我将从安装开始简要介绍一下如何使用xtrabackup来备份数据库。 定义:xtrabackup工具是percona公司用p ... »

mysql replace into 几种使用环境

replace into的存在的几种情况 当表存在主键并且存在唯一键的时候 如果只是主键冲突 mysql> select * from auto; + + + + + | id | k | v | extra | + + + + + | 2 | 2 | 2 | extra 2 | | 3 | 3 | ... »

大数据脱敏

简介 大数据平台通过将所有数据整合起来,充分分析与挖掘数据的内在价值,为业务部门提供数据平台,数据产品与数据服务。大数据平台接入的数据中可能包括很多用户的隐私和敏感信息,如用户在酒店的入住纪录,用户支付信息等,这些数据存在可能泄漏的风险。大数据平台一般通过用户认证,权限管理以及数据加密等技术保证数据 ... »

windows下安装mysql

windows 下安装mysql 1.先下载好 mysql5.7 版本的安装包,可以去官网自己下载,也可以从我的百度云分享 里面下载: 链接: https://pan.baidu.com/s/1VXkpV1OUwqWjX091j2NC6g 密码: ea3h 2.下载后双击安装包开始 mysql5.7 ... »

初识kafka

简介 Kafka经常用于实时流数据架构,用于提供实时分析。本篇将会简单介绍kafka以及它为什么能够广泛应用。 简介 Kafka经常用于实时流数据架构,用于提供实时分析。本篇将会简单介绍kafka以及它为什么能够广泛应用。 kafka的增长是爆炸性的。2017年超过三分之一的世界五百强公司在使用ka ... »

数据仓库基础介绍

前言 本文将会讲述 BI/DW/DA 领域的一些常见概念,如:事实表、维度表、建模、多维分析、cube 等,但不涉及具体实例分析。 1、维(Dimension) 维是用于从不同角度描述事物特征的,一般维都会有多层(Level:级别),每个Level都会包含一些共有的或特有的属性(Attribute) ... »