使用 R:如何比较两个数字与选项 (digits=n) 相关的浮点问题以及数字是如何引入的?
Using R: How to compare two numbers with floating-point issues related to the options(digits=n) and how the numbers were introduced?
所以让我们从常规 R 设置中的正常值开始:
n1 = 0.15;
n2 = 0.15;
n1 == n2; # we expect and get TRUE
现在,让我们使用选项
将数字更新为 22
options(digits=22);
n1 == n2; # we expect and still get TRUE but begin to worry
# our data has changed
> n1
[1] 0.14999999999999999
> n2
[1] 0.14999999999999999
我使用的是 Windoze 10,运行 64 位。
现在让我们创建一个向量或导入一个 data.frame 或做一些理论上其中一个元素为 0.15 ...
的事情
vec = seq(0,1, by=0.05);
vec;
[1] 0.000000000000000000 0.050000000000000003 0.100000000000000006
[4] 0.150000000000000022 0.200000000000000011 0.250000000000000000
[7] 0.300000000000000044 0.350000000000000033 0.400000000000000022
[10] 0.450000000000000011 0.500000000000000000 0.550000000000000044
[13] 0.600000000000000089 0.650000000000000022 0.700000000000000067
[16] 0.750000000000000000 0.800000000000000044 0.850000000000000089
[19] 0.900000000000000022 0.950000000000000067 1.000000000000000000
最后,将向量与 n 个中的一个进行比较
vec == n1;
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[13] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
太棒了!经过几个小时的调试,我发现了这一点(在子集上下文中)。
有时,根据矢量的构建方式,比较会正常进行。有时,就像在这个例子中,它不会。
> n1;
[1] 0.14999999999999999
> n2;
[1] 0.14999999999999999
> vec[4];
[1] 0.15000000000000002
> n1 == vec[4];
[1] FALSE
> n1 == n2;
[1] TRUE
如果我们可以应用来自 GLOBAL ENV 的 Math.tolerance,它们是相等的。我的解决方法是手动建立公差并使用我自己的公差将 ==
操作替换为关节 >lowerbound | <upperbound
。
因为我认为这是由于浮点问题,我希望从其他人那里得到一些见解。
我如何比较两个数字 x==y
,即使浮点问题表明它们可能不是,我也能得到正确的结果?
all.equal
在这里可能会有用:
n1 <- 0.14999999999999999
n2 <- .15
n3 <- 0.15000000000000002
all.equal(n1,n2)
# [1] TRUE
all.equal(n1,n3)
# [1] TRUE
您可以根据需要手动指定容差,例如
all.equal(n1, n3, tolerance = 1.5e-16)
# [1] "Mean relative difference: 1.850372e-16"
最后,正如 all.equal
的帮助页面所说,如果您需要返回布尔值,请将其包装在 isTRUE(all.equal(...))
或 identical
.
中
所以让我们从常规 R 设置中的正常值开始:
n1 = 0.15;
n2 = 0.15;
n1 == n2; # we expect and get TRUE
现在,让我们使用选项
将数字更新为 22options(digits=22);
n1 == n2; # we expect and still get TRUE but begin to worry
# our data has changed
> n1
[1] 0.14999999999999999
> n2
[1] 0.14999999999999999
我使用的是 Windoze 10,运行 64 位。
现在让我们创建一个向量或导入一个 data.frame 或做一些理论上其中一个元素为 0.15 ...
的事情vec = seq(0,1, by=0.05);
vec;
[1] 0.000000000000000000 0.050000000000000003 0.100000000000000006
[4] 0.150000000000000022 0.200000000000000011 0.250000000000000000
[7] 0.300000000000000044 0.350000000000000033 0.400000000000000022
[10] 0.450000000000000011 0.500000000000000000 0.550000000000000044
[13] 0.600000000000000089 0.650000000000000022 0.700000000000000067
[16] 0.750000000000000000 0.800000000000000044 0.850000000000000089
[19] 0.900000000000000022 0.950000000000000067 1.000000000000000000
最后,将向量与 n 个中的一个进行比较
vec == n1;
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[13] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
太棒了!经过几个小时的调试,我发现了这一点(在子集上下文中)。
有时,根据矢量的构建方式,比较会正常进行。有时,就像在这个例子中,它不会。
> n1;
[1] 0.14999999999999999
> n2;
[1] 0.14999999999999999
> vec[4];
[1] 0.15000000000000002
> n1 == vec[4];
[1] FALSE
> n1 == n2;
[1] TRUE
如果我们可以应用来自 GLOBAL ENV 的 Math.tolerance,它们是相等的。我的解决方法是手动建立公差并使用我自己的公差将 ==
操作替换为关节 >lowerbound | <upperbound
。
因为我认为这是由于浮点问题,我希望从其他人那里得到一些见解。
我如何比较两个数字 x==y
,即使浮点问题表明它们可能不是,我也能得到正确的结果?
all.equal
在这里可能会有用:
n1 <- 0.14999999999999999
n2 <- .15
n3 <- 0.15000000000000002
all.equal(n1,n2)
# [1] TRUE
all.equal(n1,n3)
# [1] TRUE
您可以根据需要手动指定容差,例如
all.equal(n1, n3, tolerance = 1.5e-16)
# [1] "Mean relative difference: 1.850372e-16"
最后,正如 all.equal
的帮助页面所说,如果您需要返回布尔值,请将其包装在 isTRUE(all.equal(...))
或 identical
.