国人之光:大数据分析神器Apache Kylin

一、简介 Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。之所以说它是国人之光,是因为它是首个由国人主导的Apache顶级开源项目,能在亚秒内查 ... »

基于业务和平台理解数字营销概念

数字营销产业链上最核心的角色就是就是受众人群,即浏览广告的用户,之所以称为受众人群,通常会把用户按照画像特点基于标签进行人群分类,根据广告的需求,可能是根据不同年龄段,地域,消费能力等各种标签。数字营销的基本就是广告主把营销内容传递到潜在的消费者,并触发用户交易动作。 ... »

分析了2020年3万多条的微博热搜,我看到了什么

前言 2020年是艰难的一年,但即使再难,也都过去了。 分析一下2020年的新闻热搜,可以大致了解网民都在关注什么。 微博热搜以娱乐为主,头条的热搜更偏向民生与时事。今天,我们先分析分析微博一整年的热搜。 数据抓取 由于微博平台不能查看历史热搜,本文所有的数据都是从云合数据旗下的一个热搜榜抓取的,具 ... »

用户画像分析与场景应用

用户画像,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。用户画像最初是在电商领域得到应用的,尤其在数字化营销范畴之内,核心的依赖依据就是描述用户画像的丰富标签。 ... »

标签管理体系之业务应用

基于标签对业务进行精准分析,从而影响运营思路和产品迭代的节奏,进而带来非常高的商业价值,但是这里需要对标签的质量进行评估,假设标签的覆盖场景非常低,而且准确度低,同样也会反向影响业务。 ... »

数据全景洞察概念简介

智能数字时代,数据不论形态、格式和类型,已经迅速成为企业最有战略意义的资产;数据资产已经成为了可以形成业务洞察及优势的战略资源,数据的体量、多样性和复杂性也正以指数级增长。就像其他重要的企业资产,数据需要适当的管理和治理水平,以确保它的潜在价值得到认识和发挥作用。 ... »

小白数据分析——Python职位全链路分析

最近在做Python职位分析的项目,做这件事的背景是因为接触Python这么久,还没有对Python职位有一个全貌的了解。所以想通过本次分析了解Python相关的职位有哪些、在不同城市的需求量有何差异、薪资怎么样以及对工作经验有什么要求等等。分析的链路包括: 数据采集 数据清洗 异常的创建时间 异常 ... »

一个真实数据集的完整机器学习解决方案(下)

更多精彩内容,欢迎关注公众号:数量技术宅。想要获取本期分享的完整策略代码,请加技术宅微信:sljsz01 我们先来回顾一下,一个真实数据集的完整机器学习解决方案(上篇)提到,一个完整的机器学习工程的实现步骤: 1. 数据预处理 2. 探索性数据特征统计 3. 特征工程与特征选取 4. 建立基线 5. ... »

【数量技术宅|金融数据系列分享】套利策略的价差序列计算,恐怕没有你想的那么简单

更多精彩内容,欢迎关注公众号:数量技术宅。想要获取本期分享的完整策略代码,请加技术宅微信:sljsz01 价差计算的“误区” 我们在测试两个或多个金融资产相互运算产生的策略信号时,免不了需要涉及将不同的价格时间序列,按照时间轴进行对齐,套利策略就是其中之一。然而,大部分介绍套利策略、统计套利类的文章 ... »

九种常见的数据分析模型

1. 漏斗分析模型 漏斗分析是一套流程式数据分析,它能够科学反映用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析模型。 运营人员可以通过观察不同属性的用户群体(如新注册用户与老客户、不同渠道来源的客户)各环节转化率,各流程步骤转化率的差异对比,了解转化率最高的用户群体,分析漏斗合理性,并针 ... »

pandas | DataFrame基础运算以及空值填充

本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是pandas数据处理专题的第四篇文章,我们一起来聊聊DataFrame中的索引。 上一篇文章当中我们介绍了DataFrame数据结构当中一些常用的索引的使用方法,比如iloc、loc以及逻辑索引等等。今天的文章我们来看看DataFra ... »

揭秘淘宝平台广告策略,拆解最佳投放实践

摘要:在广告展示数一定的条件下,点击率的高低就是决定一个广告能否被更多人看到的因素。本文主要针对“点击率”这一因素进行分析,与大家分享。 在广告展示数一定的条件下,点击率的高低就是决定一个广告能否被更多人看到的因素。本文主要针对“点击率”这一因素进行分析,与大家分享。 本文为Rambo同学以项目分析 ... »

如何克服严重的拖延症?

中国社科院的一项调查显示,中国有80%的大学生和86%的职场人都患有拖延症。50%的人不到最后一刻,绝不开始工作。13%的人没有人催,不能完成工作。 人们奉行着“截止日期“ 是第一生产力”的信条,在大好时光且工作且拖延,等到最后关头再不吃不睡完成KPI。 不得不承认,截止日期是非常伟大的发明,如果没 ... »

数据预处理和特征工程

数据挖掘的五大流程 获取数据 数据预处理 数据预处理是从数据中检测,纠正或删除孙华,不准确或不适用于模型的记录的过程 目的: 让数据适应模型, 匹配模型的需求 特征工程 特征工程是将原始数据转换为更能代表预测模型的潜在无问题的特征的过程, 可以通过挑选最相关的特征,提取特征以及创造特征来实现. 目的 ... »