具有大量零数据的点击欺诈检测
click fraud detection with a lot of zero data
我有一些广告发布商的数据集。发布商通过每次点击广告来赚钱。数据集由发布者列表以及相应的点击次数和他们引起的交易次数组成。问题是出版商是否作弊并点击自己的广告来赚取更多的钱。但其中一些发布商的总点击次数非常小(低于 10),因此交易次数为 0。
我的问题是我应该如何处理这些零数据?它们实际上破坏了我的数据高斯分布。我该怎么办?只是从我的数据集中删除它们?有什么统计方法可以做这样的事情吗?
顺便说一句,我对数据分析很陌生,如果答案很明显,请原谅,但我在网上找不到答案。
删除零
>>> x = [0,2,0,5,0,6,77,8,9]
>>> list(filter((0).__ne__, x))
[2, 5, 6, 77, 8, 9]
您的高斯分布形状将会改变。
我有一些广告发布商的数据集。发布商通过每次点击广告来赚钱。数据集由发布者列表以及相应的点击次数和他们引起的交易次数组成。问题是出版商是否作弊并点击自己的广告来赚取更多的钱。但其中一些发布商的总点击次数非常小(低于 10),因此交易次数为 0。
我的问题是我应该如何处理这些零数据?它们实际上破坏了我的数据高斯分布。我该怎么办?只是从我的数据集中删除它们?有什么统计方法可以做这样的事情吗?
顺便说一句,我对数据分析很陌生,如果答案很明显,请原谅,但我在网上找不到答案。
删除零
>>> x = [0,2,0,5,0,6,77,8,9]
>>> list(filter((0).__ne__, x))
[2, 5, 6, 77, 8, 9]
您的高斯分布形状将会改变。