1. 用户画像的概念

1.1 什么是用户画像?

用户画像是对现实世界中的用户的数学建模

1.2 用户标签画像

用户标签画像是用标签标示方法来表示用户。

  • 标签是某一种用户特征的符号表示;
  • 用户画像是一个整体,各个维度不孤立,标签之间有联系;

用户画像可以用标签的集合来表示。

1.3 用户标签的数学描述:

标签是特征空间中的维度

特征空间:

  • 每个标签都是特征空间中的基向量
  • 基向量之间有关联,不一定是正交的;

用户画像是特征空间中的高维向量

特征空间中向量表示:
用户画像系统概述

2. 用户画像的流程和架构

2.1 用户画像的流程:

用户画像系统概述
(1)明确问题和了解数据:

分类 / 回归 / 聚类 / 推荐,匹配具体需求,数据的规模、重要特征的覆盖度等。

(2)数据预处理:

数据集成、数据冗余、数据冲突,数据采样,数据清洗、缺失值处理和噪声数据。

(3)特征工程:

提取对所需解决问题有用的属性。

特征的提取和构造:

  • 针对所解决的问题选择最有用的特征集合;
  • 通过相关系数等方式来计算特征的重要性(人工筛选 / 提升树 / 维度过多,PCA自动降维)

特征监控:

  • 指标:时效性、覆盖率和异常值;
  • 可视化 & 预警;

(4)模型算法:

可根据应用场景选择多种模型尝试比较

2.2 用户画像系统架构

用户画像系统概述
用户画像系统概述

3. 用户标签使用案例:

预测问题:

  • 性别预测问题:
    根据用户数据类型预测性别;

  • 已知数据:
    数据1:用户使用APP的行为数据;
    数据2:用户浏览网页的行为数据;

3.1 明确问题
  • 数据挖掘常见问题中的哪一类?
    • 分类、回归、聚类、推荐,还是其他(二分类)
  • 数据集规模:
    • 数据集是否够大?(分类需要大的数据集,处理数据量所需资源,本地或大数据平台)
  • 问题假设:
    • 数据是否满足所解决问题的假设?(男女行为不同)
3.2 数据预处理

表1数据预处理后的结果:
用户画像系统概述

表2数据预处理后的结果:
用户画像系统概述

3.3 特征工程
  • 单特征分析:

    • 数值型特征处理:标准化、归一化、离散化(连续数值本身对结果意义不大);
    • 类别型特征:one-hot编码;
    • 文本数据:网页 -> 文本 -> 分词 -> 去停用词 -> 向量化(TF-IDF等);
  • 多特征分析:

    • 设备类型是否决定了性别?做相关性分析,计算相关系数;
    • APP的启动次数和停留时长是否完全正相关,结果表明特别相关,去掉停留时长;
    • 如果特征太多,可能需要做降维处理;

表1特征工程后的数据:
用户画像系统概述
表2特征工程后的数据:
用户画像系统概述
数据按照主键(User_id)连接生成数据集。

3.4 算法与模型
  • 选择算法和模型考虑的因素;
  • 数据集的大小,如何划分训练集和测试集;
  • 特征的维度大小,是否需要降维;
  • 所解决问题是否是线性可分的;
  • 所有的特征是独立的么;
  • 需不需要考虑过拟合的问题;
  • 对性能有哪些要求;
  • 在满足需求的前提下,选择简单的模型;
  • 对算法和模型选择评价标准;
  • 离线测试;
3.5 在线测试
  • A/B测试;

相关文章:

  • 2022-01-07
  • 2021-12-23
  • 2021-12-25
  • 2022-01-15
  • 2021-10-28
  • 2022-01-10
  • 2021-11-08
猜你喜欢
  • 2021-06-29
  • 2022-02-09
  • 2021-11-13
  • 2021-06-12
  • 2021-12-25
  • 2021-10-24
  • 2021-11-12
相关资源
相似解决方案