国人之光:大数据分析神器Apache Kylin
一、简介 Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。之所以说它是国人之光,是因为它是首个由国人主导的Apache顶级开源项目,能在亚秒内查 ... »
一、简介 Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。之所以说它是国人之光,是因为它是首个由国人主导的Apache顶级开源项目,能在亚秒内查 ... »
数字营销产业链上最核心的角色就是就是受众人群,即浏览广告的用户,之所以称为受众人群,通常会把用户按照画像特点基于标签进行人群分类,根据广告的需求,可能是根据不同年龄段,地域,消费能力等各种标签。数字营销的基本就是广告主把营销内容传递到潜在的消费者,并触发用户交易动作。 ... »
前言 2020年是艰难的一年,但即使再难,也都过去了。 分析一下2020年的新闻热搜,可以大致了解网民都在关注什么。 微博热搜以娱乐为主,头条的热搜更偏向民生与时事。今天,我们先分析分析微博一整年的热搜。 数据抓取 由于微博平台不能查看历史热搜,本文所有的数据都是从云合数据旗下的一个热搜榜抓取的,具 ... »
用户画像,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。用户画像最初是在电商领域得到应用的,尤其在数字化营销范畴之内,核心的依赖依据就是描述用户画像的丰富标签。 ... »
推荐系统是根据用户的行为、兴趣等特征,将用户感兴趣的信息、产品等推荐给用户的系统,它的出现主要是为了解决信息过载和用户无明确需求的问题,根据划分标准的不同,又分很多种类别 ... »
聚类算法是机器学习中的一种无监督学习算法,它在数据科学领域应用场景很广泛,比如基于用户购买行为、兴趣等来构建推荐系统。核心思想可以理解为, ... »
基于标签对业务进行精准分析,从而影响运营思路和产品迭代的节奏,进而带来非常高的商业价值,但是这里需要对标签的质量进行评估,假设标签的覆盖场景非常低,而且准确度低,同样也会反向影响业务。 ... »
标签特点:精确描述定位和搜索,具有生命周期的特性,可以计算,配置和规则化处理。可以用标签来描述各种结构和非结构化[文档、图片、视频等]的数据,从而使这些内容被高效的管理。 ... »
智能数字时代,数据不论形态、格式和类型,已经迅速成为企业最有战略意义的资产;数据资产已经成为了可以形成业务洞察及优势的战略资源,数据的体量、多样性和复杂性也正以指数级增长。就像其他重要的企业资产,数据需要适当的管理和治理水平,以确保它的潜在价值得到认识和发挥作用。 ... »
最近在做Python职位分析的项目,做这件事的背景是因为接触Python这么久,还没有对Python职位有一个全貌的了解。所以想通过本次分析了解Python相关的职位有哪些、在不同城市的需求量有何差异、薪资怎么样以及对工作经验有什么要求等等。分析的链路包括: 数据采集 数据清洗 异常的创建时间 异常 ... »
更多精彩内容,欢迎关注公众号:数量技术宅。想要获取本期分享的完整策略代码,请加技术宅微信:sljsz01 我们先来回顾一下,一个真实数据集的完整机器学习解决方案(上篇)提到,一个完整的机器学习工程的实现步骤: 1. 数据预处理 2. 探索性数据特征统计 3. 特征工程与特征选取 4. 建立基线 5. ... »
更多精彩内容,欢迎关注公众号:数量技术宅。想要获取本期分享的完整策略代码,请加技术宅微信:sljsz01 价差计算的“误区” 我们在测试两个或多个金融资产相互运算产生的策略信号时,免不了需要涉及将不同的价格时间序列,按照时间轴进行对齐,套利策略就是其中之一。然而,大部分介绍套利策略、统计套利类的文章 ... »
1. 漏斗分析模型 漏斗分析是一套流程式数据分析,它能够科学反映用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析模型。 运营人员可以通过观察不同属性的用户群体(如新注册用户与老客户、不同渠道来源的客户)各环节转化率,各流程步骤转化率的差异对比,了解转化率最高的用户群体,分析漏斗合理性,并针 ... »
数字货币数据难获取,技术宅手把手教你如何获取免费的数字货币K线以及Tick数据 ... »
交易策略难开发?技术宅手把手教你,用多周期共振,提高交易策略胜率 ... »
本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是pandas数据处理专题的第四篇文章,我们一起来聊聊DataFrame中的索引。 上一篇文章当中我们介绍了DataFrame数据结构当中一些常用的索引的使用方法,比如iloc、loc以及逻辑索引等等。今天的文章我们来看看DataFra ... »
摘要:在广告展示数一定的条件下,点击率的高低就是决定一个广告能否被更多人看到的因素。本文主要针对“点击率”这一因素进行分析,与大家分享。 在广告展示数一定的条件下,点击率的高低就是决定一个广告能否被更多人看到的因素。本文主要针对“点击率”这一因素进行分析,与大家分享。 本文为Rambo同学以项目分析 ... »
所有内容整理自《利用Python进行数据分析》,使用MindMaster Pro 7.3制作,emmx格式,源文件已经上传Github,需要的同学转左上角自行下载或者右击保存图片。 其他章节知识图谱《利用Python进行数据分析》自学知识图谱-导航 ... »
中国社科院的一项调查显示,中国有80%的大学生和86%的职场人都患有拖延症。50%的人不到最后一刻,绝不开始工作。13%的人没有人催,不能完成工作。 人们奉行着“截止日期“ 是第一生产力”的信条,在大好时光且工作且拖延,等到最后关头再不吃不睡完成KPI。 不得不承认,截止日期是非常伟大的发明,如果没 ... »
数据挖掘的五大流程 获取数据 数据预处理 数据预处理是从数据中检测,纠正或删除孙华,不准确或不适用于模型的记录的过程 目的: 让数据适应模型, 匹配模型的需求 特征工程 特征工程是将原始数据转换为更能代表预测模型的潜在无问题的特征的过程, 可以通过挑选最相关的特征,提取特征以及创造特征来实现. 目的 ... »