本征:我应该使用对齐地图进行密集计算吗?
Eigen: Should i use aligned map for intensive computations?
我想对外部分配的数据执行大量计算,尤其是矩阵乘法。可以通过 Eigen::Map
完成。不幸的是,我不是矢量化计算方面的专家,但据我所知,可以为 Map
指定 Aligned
标志。
我决定通过 Eigen::MatrixXf
和 'Eigen::Map' 检查矩阵乘法之间的性能差异:
void testMatProduct(
const Eigen::MatrixXf &a,
const Eigen::MatrixXf &b,
Eigen::MatrixXf &res)
{
const auto startTime = std::chrono::high_resolution_clock::now();
res.noalias() = a * b;
const auto endTime = std::chrono::high_resolution_clock::now();
const auto duration = std::chrono::duration_cast<std::chrono::microseconds>( endTime - startTime ).count();
std::cout << "Mat product elapsed " << duration / 1.0e6 << std::endl;
}
using EigenMap = Eigen::Map<Eigen::MatrixXf, Eigen::Unaligned>;
void testMapProduct(
const EigenMap &a,
const EigenMap &b,
EigenMap &res)
{
const auto startTime = std::chrono::high_resolution_clock::now();
res.noalias() = a * b;
const auto endTime = std::chrono::high_resolution_clock::now();
const auto duration = std::chrono::duration_cast<std::chrono::microseconds>( endTime - startTime ).count();
std::cout << "Map product elapsed " << duration / 1.0e6 << std::endl;
}
int main(int, char **)
{
srand(42);
const int64_t N = 7000;
const int64_t K = 6000;
const int64_t M = 100;
Eigen::MatrixXf mat1 = Eigen::MatrixXf::Random(N, K);
Eigen::MatrixXf mat2 = Eigen::MatrixXf::Random(K, M);
Eigen::MatrixXf matRes = Eigen::MatrixXf::Zero(N, M);
// Copy data from mats to vecs
Eigen::VectorXf vec1 = Eigen::Map<Eigen::MatrixXf>(mat1.data(), mat1.rows() * mat1.cols(), 1);
Eigen::VectorXf vec2 = Eigen::Map<Eigen::MatrixXf>(mat2.data(), mat2.rows() * mat2.cols(), 1);
Eigen::VectorXf vecRes = Eigen::VectorXf::Zero(N * M);
EigenMap map1 = EigenMap(vec1.data(), mat1.rows(), mat1.cols());
EigenMap map2 = EigenMap(vec2.data(), mat2.rows(), mat2.cols());
EigenMap mapRes = EigenMap(vecRes.data(), matRes.rows(), matRes.cols());
for(int i = 0; i < 10; ++i){
testMapProduct(map1, map2, mapRes);
testMatProduct(mat1, mat2, matRes);
matRes.setZero();
vecRes.setZero();
}
return 0;
}
我很确定这不是一个有效的基准,但它应该给我一些直觉。我用 -march=native
编译它并打印以下输出:
Map product elapsed 0.102751
Mat product elapsed 0.10224
Map product elapsed 0.10022
Mat product elapsed 0.100726
Map product elapsed 0.09963
Mat product elapsed 0.100697
Map product elapsed 0.099673
Mat product elapsed 0.100809
Map product elapsed 0.100195
.......
所以我觉得map积和matrix积没有太大区别
我的问题是:
1) Map<MatrixXf, Unaligned>
和 Map<MatrixXf, Aligned>
在性能方面有什么区别?我是否应该关心 Map
其他操作(如点积、元素加法等)的对齐方式
2) 我的比较正确吗?
PS对不起我的英语不好
1) 数据对齐指定了应该如何访问和排列数据的方式。这意味着如果您使用 Eigen::MatrixXf
,它在编译时指的是数据类型为 float
的未知维度矩阵,则数据指针应对齐 4 字节( 32 位) 边界(假设浮点数在您的系统上使用 32 位表示)。
数据对齐的不同规范对性能有什么影响?要回答这个问题,我们将看看以下讨论:
Talk: On a 32-bit architecture, would a 16-bit value not aligned on a 32-bit boundary be accessed more slowly?
- 影响性能的主要论点:将两个16位值打包到一个32位寄存器中意味着您必须花费资源将数据从一种格式转换为另一种格式
有人可能会争辩说 C/C++ 等语言支持 子词访问 这意味着您不必转换它们,这意味着您可以节省内存 space 并且对性能没有负面影响。
我假设 Eigen 库自动检测到 Eigen::MatrixXf
的数据指针在 4 字节边界上对齐,因此如果您省略 MapOption
模板或将其分配给 Eigen::Unaligned
。如果您想确保使用 Eigen::Aligned4
(回想一下 Eigen::Aligned
已被弃用 并且是 Aligned16
的同义词,因此是 128 位)。您可以查看对齐枚举器 here.
2) Eigen::Map
享有无需复制数据即可初始化矩阵和向量的好处,这与 Eigen::Matrix
和 Eigen::Vector
不同。我很确定 Eigen::Map
和 Eigen::Matrix
使用相同的操作来进行乘法、加法等下面的对象,只是引用不同。如果 Eigen::Map
引用两个相距很远的 matrices/vectors ,我可以从使用 Eigen::Matrix
中看到的唯一性能优势是 空间局部性 在缓存性能方面在内存中以及处理巨大的矩阵时。当然,假设您紧接着初始化了两个 Eigen::Matrix
对象,这样它们在内存中是连续的。
主要区别在于矢量化加载是对齐加载还是未对齐加载(或跨越缓存行边界时)。在现代桌面 CPU 上(例如任何 CPU 与 AVX、IIRC),差异将是微小的,与实际工作相比相形见绌。在其他设备上,对非对齐负载的惩罚可能会有很大差异。
如果Eigen::Map
保证内存是对齐的,则load都是对齐的load,如果不能保证,那么load一定是非对齐的load。这对您的应用程序的影响程度取决于您的目标硬件。
我想对外部分配的数据执行大量计算,尤其是矩阵乘法。可以通过 Eigen::Map
完成。不幸的是,我不是矢量化计算方面的专家,但据我所知,可以为 Map
指定 Aligned
标志。
我决定通过 Eigen::MatrixXf
和 'Eigen::Map' 检查矩阵乘法之间的性能差异:
void testMatProduct(
const Eigen::MatrixXf &a,
const Eigen::MatrixXf &b,
Eigen::MatrixXf &res)
{
const auto startTime = std::chrono::high_resolution_clock::now();
res.noalias() = a * b;
const auto endTime = std::chrono::high_resolution_clock::now();
const auto duration = std::chrono::duration_cast<std::chrono::microseconds>( endTime - startTime ).count();
std::cout << "Mat product elapsed " << duration / 1.0e6 << std::endl;
}
using EigenMap = Eigen::Map<Eigen::MatrixXf, Eigen::Unaligned>;
void testMapProduct(
const EigenMap &a,
const EigenMap &b,
EigenMap &res)
{
const auto startTime = std::chrono::high_resolution_clock::now();
res.noalias() = a * b;
const auto endTime = std::chrono::high_resolution_clock::now();
const auto duration = std::chrono::duration_cast<std::chrono::microseconds>( endTime - startTime ).count();
std::cout << "Map product elapsed " << duration / 1.0e6 << std::endl;
}
int main(int, char **)
{
srand(42);
const int64_t N = 7000;
const int64_t K = 6000;
const int64_t M = 100;
Eigen::MatrixXf mat1 = Eigen::MatrixXf::Random(N, K);
Eigen::MatrixXf mat2 = Eigen::MatrixXf::Random(K, M);
Eigen::MatrixXf matRes = Eigen::MatrixXf::Zero(N, M);
// Copy data from mats to vecs
Eigen::VectorXf vec1 = Eigen::Map<Eigen::MatrixXf>(mat1.data(), mat1.rows() * mat1.cols(), 1);
Eigen::VectorXf vec2 = Eigen::Map<Eigen::MatrixXf>(mat2.data(), mat2.rows() * mat2.cols(), 1);
Eigen::VectorXf vecRes = Eigen::VectorXf::Zero(N * M);
EigenMap map1 = EigenMap(vec1.data(), mat1.rows(), mat1.cols());
EigenMap map2 = EigenMap(vec2.data(), mat2.rows(), mat2.cols());
EigenMap mapRes = EigenMap(vecRes.data(), matRes.rows(), matRes.cols());
for(int i = 0; i < 10; ++i){
testMapProduct(map1, map2, mapRes);
testMatProduct(mat1, mat2, matRes);
matRes.setZero();
vecRes.setZero();
}
return 0;
}
我很确定这不是一个有效的基准,但它应该给我一些直觉。我用 -march=native
编译它并打印以下输出:
Map product elapsed 0.102751
Mat product elapsed 0.10224
Map product elapsed 0.10022
Mat product elapsed 0.100726
Map product elapsed 0.09963
Mat product elapsed 0.100697
Map product elapsed 0.099673
Mat product elapsed 0.100809
Map product elapsed 0.100195
.......
所以我觉得map积和matrix积没有太大区别
我的问题是:
1) Map<MatrixXf, Unaligned>
和 Map<MatrixXf, Aligned>
在性能方面有什么区别?我是否应该关心 Map
其他操作(如点积、元素加法等)的对齐方式
2) 我的比较正确吗?
PS对不起我的英语不好
1) 数据对齐指定了应该如何访问和排列数据的方式。这意味着如果您使用 Eigen::MatrixXf
,它在编译时指的是数据类型为 float
的未知维度矩阵,则数据指针应对齐 4 字节( 32 位) 边界(假设浮点数在您的系统上使用 32 位表示)。
数据对齐的不同规范对性能有什么影响?要回答这个问题,我们将看看以下讨论:
Talk: On a 32-bit architecture, would a 16-bit value not aligned on a 32-bit boundary be accessed more slowly?
- 影响性能的主要论点:将两个16位值打包到一个32位寄存器中意味着您必须花费资源将数据从一种格式转换为另一种格式
有人可能会争辩说 C/C++ 等语言支持 子词访问 这意味着您不必转换它们,这意味着您可以节省内存 space 并且对性能没有负面影响。
我假设 Eigen 库自动检测到 Eigen::MatrixXf
的数据指针在 4 字节边界上对齐,因此如果您省略 MapOption
模板或将其分配给 Eigen::Unaligned
。如果您想确保使用 Eigen::Aligned4
(回想一下 Eigen::Aligned
已被弃用 并且是 Aligned16
的同义词,因此是 128 位)。您可以查看对齐枚举器 here.
2) Eigen::Map
享有无需复制数据即可初始化矩阵和向量的好处,这与 Eigen::Matrix
和 Eigen::Vector
不同。我很确定 Eigen::Map
和 Eigen::Matrix
使用相同的操作来进行乘法、加法等下面的对象,只是引用不同。如果 Eigen::Map
引用两个相距很远的 matrices/vectors ,我可以从使用 Eigen::Matrix
中看到的唯一性能优势是 空间局部性 在缓存性能方面在内存中以及处理巨大的矩阵时。当然,假设您紧接着初始化了两个 Eigen::Matrix
对象,这样它们在内存中是连续的。
主要区别在于矢量化加载是对齐加载还是未对齐加载(或跨越缓存行边界时)。在现代桌面 CPU 上(例如任何 CPU 与 AVX、IIRC),差异将是微小的,与实际工作相比相形见绌。在其他设备上,对非对齐负载的惩罚可能会有很大差异。
如果Eigen::Map
保证内存是对齐的,则load都是对齐的load,如果不能保证,那么load一定是非对齐的load。这对您的应用程序的影响程度取决于您的目标硬件。