点击流数据分析[关闭]答案

【问题标题】：Clickstream data analysis [closed]点击流数据分析[关闭]
【发布时间】：2016-08-29 00:17:01
【问题描述】：

我遇到了一个有趣的场景，称为点击流数据分析。我只知道什么是点击流数据。我想了解更多关于这个和不同场景的信息，在这些场景中，它可以为企业的最大利益而使用，以及我们在每个场景的不同步骤中处理数据所需的工具集。

【问题讨论】：

【解决方案1】：

什么是点击流数据？

这是用户在网上冲浪时留下的虚拟轨迹。点击流是用户在 Internet 上的活动的记录，包括用户访问的每个网站和每个网站的每个页面、用户在页面或站点上停留的时间、访问页面的顺序、任何新闻组用户参与的，甚至用户发送和接收的邮件的电子邮件地址。 ISP 和个人网站都能够跟踪用户的点击流。

点击流数据可能包括以下信息：浏览器高度-宽度、浏览器名称、浏览器语言、设备类型（台式机、笔记本电脑、平板电脑、移动设备）、收入、日期、时间戳、IP 地址、URL、购物车中添加的产品数量，删除的产品数量，州，国家，帐单邮政编码，运输邮政编码等。

我们如何从点击流数据中提取更多信息？

在网络分析领域，网站访问者和潜在客户相当于基于主题的数据集中的主题。考虑以下点击流数据示例，基于主题的数据集以行和列的形式构成（如 Excel 电子表格）——数据集的每一行都是一个唯一的主题，每一列都是关于该主题的一些信息。如果要进行基于客户的分析，则需要基于客户的数据集。点击流数据最精细的形式如下图所示。来自同一访问者的点击已被颜色编码在一起。

数据科学家从点击流数据中获得更多特征。对于每个访问者，我们在一次访问中会有几次点击，并且在很长一段时间内，我们会有一系列访问。我们需要一种在访问者级别组织数据的方法。像这样的：

显然，有许多不同的方法可以聚合数据。对于页面浏览量、收入和视频浏览量等数字数据，我们可能希望使用平均值或总计等数据。通过这样做，我们可以获得有关客户行为的更多信息。如果您观察汇总图表，您可以很容易地看出公司在周五的收入增加了。

一旦您获得了基于客户的数据集，就有许多不同的统计模型和数据科学技术可以让您在访问者级别访问更深入、更有意义的分析。 Data Science Consulting 在利用这些方法方面拥有专业知识和经验：

预测哪些客户的流失风险最高，确定影响该风险的因素（允许您主动留住您的客户群）
了解个别客户的品牌知名度水平
为目标客户提供个性化的相关优惠
预测哪些客户最有可能转化并统计确定您的网站如何影响该决定
确定访问者最有可能访问的网站内容类型回应并了解内容参与如何推动高价值访问
定义不同角色的配置文件和特征访问您的网站的访问者，并了解如何与他们互动。

您可能还对以下 Coursera 课程感兴趣：

https://www.coursera.org/learn/process-mining?recoOrder=6&utm_medium=email&utm_source=recommendations&utm_campaign=recommendationsEmail~recs_email_2016_06_26_17%3A57

我认为这是关于流程挖掘的，其中有点击跟踪分析作为一个特例。

【讨论】：

【解决方案2】：

以下内容可以概括地说明大多数公司的工作：

摄取 REST-ful API 供客户端传入事件
将事件推送到 Kafka
Spark 流进行实时计算
Gobblin（或类似工具）将数据从 Kafka 泵送到 HDFS，然后在 HDFS 上运行批处理 M/R 作业
实时和批处理作业都将计算的指标泵送到 Druid（Lambda 架构）
最终用户报告/仪表板的 UI
用于警报的 Nagios（或类似）
指标聚合框架，通过堆栈中的每一层跟踪事件

根据我的经验，最好从相当成熟的工具开始，做一个端到端的 POC，然后看看你可以使用的其他工具。例如，随着您的管道开始成熟，您甚至可以拥有异步摄取 API（用 scala/akka 编写）、用于执行内联事件转换的 Kafka 流、用于实时和批处理作业的 Flink 等。

【讨论】：

您能否告诉我一些场景，我可以使用您在我们的回答中提到的所有技术组件完成工作？即项目的目的。
不确定我是否可以谈谈我在公司工作的具体细节。我只是简要概述了可用的工具以及这些工具的类型和目的，比如你使用 Kafka 作为消息总线，使用 Spark 来运行 M/R 等。你很可能不需要整套甚至是同一套我们使用的工具。
我们所做的类似于 Google Analytics 和 MixPanel。

【解决方案3】：

也许您可以看看 EDX 上的 spark 课程，它们使用带有 spark 的点击流示例进行分析和机器学习。

【讨论】：