使用 R 在 DBSCAN 中获取噪声
Obtaining noise in DBSCAN using R
我有一个包含足球比赛投注的数据集。我正在使用 3 个参数进行离群值检测,主队获胜的几率、比赛以平局结束的几率和客队获胜的几率。
每条记录看起来像这样:
Home Draw Away
1.320 5.700 13.500
我已经确定了这些簇,但很难确定哪一个包含噪声,最合理的似乎是最后一个簇(即,如果我有 10 个簇,则第 10 个簇就是噪声。)
这是使用 DBSCAN
从我的数据集中获取异常值的正确方法吗?有更好的方法吗?
另外,如果不手动检查,我怎么知道我必须获得最后一个(有噪音的那个)多少簇?
我对统计编程和离群值检测完全陌生,如果我听起来一无所知,我深表歉意。
请阅读文档。
integer vector coding cluster membership with noise observations (singletons) coded as 0
有的,在dbscan
的手册里搜索"noise"这个词就行了。
我有一个包含足球比赛投注的数据集。我正在使用 3 个参数进行离群值检测,主队获胜的几率、比赛以平局结束的几率和客队获胜的几率。
每条记录看起来像这样:
Home Draw Away
1.320 5.700 13.500
我已经确定了这些簇,但很难确定哪一个包含噪声,最合理的似乎是最后一个簇(即,如果我有 10 个簇,则第 10 个簇就是噪声。)
这是使用 DBSCAN
从我的数据集中获取异常值的正确方法吗?有更好的方法吗?
另外,如果不手动检查,我怎么知道我必须获得最后一个(有噪音的那个)多少簇?
我对统计编程和离群值检测完全陌生,如果我听起来一无所知,我深表歉意。
请阅读文档。
integer vector coding cluster membership with noise observations (singletons) coded as 0
有的,在dbscan
的手册里搜索"noise"这个词就行了。