【问题标题】:click fraud detection with a lot of zero data具有大量零数据的点击欺诈检测
【发布时间】:2018-06-10 12:48:21
【问题描述】:

我有一些广告发布商的数据集。发布商通过每次点击广告赚取收入。数据集由发布者列表和相应的点击次数和他们引起的交易次数组成。问题是出版商是否作弊并点击它自己的广告以获得更多的钱。但其中一些发布商的总点击量非常小(低于 10),因此交易数量为 0。

我的问题是我应该如何处理这些零数据?他们实际上破坏了我的数据高斯分布。我该怎么办?只是从我的数据集中消除它们?有什么统计方法可以做这样的事情吗?

顺便说一句,我对数据分析很陌生,如果答案很明显,请原谅,但我在网上找不到答案。

【问题讨论】:

    标签: python machine-learning dataset data-science anomaly-detection


    【解决方案1】:

    删除零

    >>> x = [0,2,0,5,0,6,77,8,9]
    >>> list(filter((0).__ne__, x))
    [2, 5, 6, 77, 8, 9]
    

    你的高斯分布的形状会改变。

    【讨论】:

    • 感谢您的回复,但它不会改变分布和结果 p(x)。 @理查德
    猜你喜欢
    • 2011-04-04
    • 1970-01-01
    • 2020-07-30
    • 2015-06-02
    • 1970-01-01
    • 2012-12-18
    • 2020-07-18
    • 1970-01-01
    • 2011-11-04
    相关资源
    最近更新 更多