R 在内部如何表示 NA?
How does R represent NA internally?
R 似乎支持浮点数组中的高效 NA
值。它在内部是如何表示的?
我(可能有缺陷)的理解是,现代 CPU 可以在硬件中执行浮点计算,包括有效处理 Inf、-Inf 和 NaN 值。 NA
如何融入其中,如何在不影响性能的情况下实施?
R 使用为 IEEE floats 定义的 NaN 值来表示 NA_real_
、Inf
和 NA
。我们可以使用一个简单的 C++ 函数来明确这一点:
Rcpp::cppFunction('void print_hex(double x) {
uint64_t y;
static_assert(sizeof x == sizeof y, "Size does not match!");
std::memcpy(&y, &x, sizeof y);
Rcpp::Rcout << std::hex << y << std::endl;
}', plugins = "cpp11", includes = "#include <cstdint>")
print_hex(NA_real_)
#> 7ff80000000007a2
print_hex(Inf)
#> 7ff0000000000000
print_hex(-Inf)
#> fff0000000000000
指数(第二到13位)全为1。这是 IEEE NaN 的定义。但是,虽然 Inf
的尾数全为零,但 NA_real_
的情况并非如此。这里有一些source
code
references.
R 似乎支持浮点数组中的高效 NA
值。它在内部是如何表示的?
我(可能有缺陷)的理解是,现代 CPU 可以在硬件中执行浮点计算,包括有效处理 Inf、-Inf 和 NaN 值。 NA
如何融入其中,如何在不影响性能的情况下实施?
R 使用为 IEEE floats 定义的 NaN 值来表示 NA_real_
、Inf
和 NA
。我们可以使用一个简单的 C++ 函数来明确这一点:
Rcpp::cppFunction('void print_hex(double x) {
uint64_t y;
static_assert(sizeof x == sizeof y, "Size does not match!");
std::memcpy(&y, &x, sizeof y);
Rcpp::Rcout << std::hex << y << std::endl;
}', plugins = "cpp11", includes = "#include <cstdint>")
print_hex(NA_real_)
#> 7ff80000000007a2
print_hex(Inf)
#> 7ff0000000000000
print_hex(-Inf)
#> fff0000000000000
指数(第二到13位)全为1。这是 IEEE NaN 的定义。但是,虽然 Inf
的尾数全为零,但 NA_real_
的情况并非如此。这里有一些source
code
references.