C++模板元编程成员函数循环展开
C++ template meta-programming member function loop unrolling
我刚刚开始在我的代码中使用模板元编程。我有一个 class 作为一个成员,它是一个多维笛卡尔点的向量。这是 class 的基本设置:
template<size_t N>
class TGrid{
public:
void round_points_3(){
for(std::size_t i = 0; i < Xp.size();i++){
Xp[i][0] = min[0] + (std::floor((Xp[i][0] - min[0]) * nbins[0] / (max[0] - min[0])) * bin_w[0]) + bin_w[0]/2.0;
Xp[i][1] = min[1] + (std::floor((Xp[i][1] - min[1]) * nbins[1] / (max[1] - min[1])) * bin_w[1]) + bin_w[1]/2.0;
Xp[i][2] = min[2] + (std::floor((Xp[i][2] - min[2]) * nbins[2] / (max[2] - min[2])) * bin_w[2]) + bin_w[2]/2.0;
}
}
void round_points_2(){
for(std::size_t i = 0; i < Xp.size();i++){
Xp[i][0] = min[0] + (std::floor((Xp[i][0] - min[0]) * nbins[0] / (max[0] - min[0])) * bin_w[0]) + bin_w[0]/2.0;
Xp[i][1] = min[1] + (std::floor((Xp[i][1] - min[1]) * nbins[1] / (max[1] - min[1])) * bin_w[1]) + bin_w[1]/2.0;
}
}
void round_points_1(){
for(std::size_t i = 0; i < Xp.size();i++){
Xp[i][0] = min[0] + (std::floor((Xp[i][0] - min[0]) * nbins[0] / (max[0] - min[0])) * bin_w[0]) + bin_w[0]/2.0;
}
}
public:
std::vector<std::array<double,N> > Xp;
std::vector<double> min, max, nbins, bin_w;
};
这个class代表了一个多维网格。维度由模板值 N 指定。我将进行许多操作,这些操作可以通过为特定维度量身定制的模板特定成员函数来提高效率,例如循环展开。
在 class TGrid 中,我有 3 个特定于维度 D=1、D=2 和 D=3 的函数。这由函数的下标_1、_2 和_3 表示。
我正在寻找一种面向模板元编程的方法来编写
这三个功能更紧凑。
我看过循环展开的示例,但所有这些示例都没有考虑模板的成员函数 class。
抛开这是否是一个适当的优化,或者是否应该首先考虑其他优化的问题,这就是我会做的。 (但我确实同意,有时显式展开循环显然更好——编译器并不总是最好的判断者。)
不能部分特化成员函数,也不能在不特化外部结构的情况下特化嵌套结构,因此唯一的解决方案是为展开机制使用单独的模板化结构。随意将它放在其他名称空间中:)
展开实现:
template <int N>
struct sequence {
template <typename F,typename... Args>
static void run(F&& f,Args&&... args) {
sequence<N-1>::run(std::forward<F>(f),std::forward<Args>(args)...);
f(args...,N-1);
}
};
template <>
struct sequence<0> {
template <typename F,typename... Args>
static void run(F&& f,Args&&... args) {}
};
这需要一个任意函数对象和一个参数列表,然后使用这些参数和一个附加的最终参数调用该对象 N 次,其中最终参数的范围从 0 到 N-1。通用引用和可变参数模板不是必需的;可以在 C++98 中采用相同的想法,但通用性较低。
round_points<K>
然后用辅助静态成员函数调用 sequence::run<K>
:
template <size_t N>
class TGrid {
public:
template <size_t K>
void round_points(){
for (std::size_t i = 0; i < Xp.size();i++) {
sequence<K>::run(TGrid<N>::round_item,*this,i);
}
}
static void round_item(TGrid &G,int i,int j) {
G.Xp[i][j] = G.min[j] + (std::floor((G.Xp[i][j] - G.min[j]) * G.nbins[j] / (G.max[j] - G.min[j])) * G.bin_w[j]) + G.bin_w[j]/2.0;
}
// ...
};
编辑:附录
使用指向成员函数的指针执行等效操作似乎很难让编译器内联。作为替代方案,为避免使用静态 round_item,您可以使用 lambda,例如:
template <size_t N>
class TGrid {
public:
template <size_t K>
void round_points(){
for (std::size_t i = 0; i < Xp.size();i++) {
sequence<K>::run([&](int j) {round_item(i,j);});
}
}
void round_item(int i,int j) {
Xp[i][j] = min[j] + (std::floor((Xp[i][j] - min[j]) * nbins[j] / (max[j] - min[j])) * bin_w[j]) + bin_w[j]/2.0;
}
// ...
};
我刚刚开始在我的代码中使用模板元编程。我有一个 class 作为一个成员,它是一个多维笛卡尔点的向量。这是 class 的基本设置:
template<size_t N>
class TGrid{
public:
void round_points_3(){
for(std::size_t i = 0; i < Xp.size();i++){
Xp[i][0] = min[0] + (std::floor((Xp[i][0] - min[0]) * nbins[0] / (max[0] - min[0])) * bin_w[0]) + bin_w[0]/2.0;
Xp[i][1] = min[1] + (std::floor((Xp[i][1] - min[1]) * nbins[1] / (max[1] - min[1])) * bin_w[1]) + bin_w[1]/2.0;
Xp[i][2] = min[2] + (std::floor((Xp[i][2] - min[2]) * nbins[2] / (max[2] - min[2])) * bin_w[2]) + bin_w[2]/2.0;
}
}
void round_points_2(){
for(std::size_t i = 0; i < Xp.size();i++){
Xp[i][0] = min[0] + (std::floor((Xp[i][0] - min[0]) * nbins[0] / (max[0] - min[0])) * bin_w[0]) + bin_w[0]/2.0;
Xp[i][1] = min[1] + (std::floor((Xp[i][1] - min[1]) * nbins[1] / (max[1] - min[1])) * bin_w[1]) + bin_w[1]/2.0;
}
}
void round_points_1(){
for(std::size_t i = 0; i < Xp.size();i++){
Xp[i][0] = min[0] + (std::floor((Xp[i][0] - min[0]) * nbins[0] / (max[0] - min[0])) * bin_w[0]) + bin_w[0]/2.0;
}
}
public:
std::vector<std::array<double,N> > Xp;
std::vector<double> min, max, nbins, bin_w;
};
这个class代表了一个多维网格。维度由模板值 N 指定。我将进行许多操作,这些操作可以通过为特定维度量身定制的模板特定成员函数来提高效率,例如循环展开。
在 class TGrid 中,我有 3 个特定于维度 D=1、D=2 和 D=3 的函数。这由函数的下标_1、_2 和_3 表示。
我正在寻找一种面向模板元编程的方法来编写 这三个功能更紧凑。
我看过循环展开的示例,但所有这些示例都没有考虑模板的成员函数 class。
抛开这是否是一个适当的优化,或者是否应该首先考虑其他优化的问题,这就是我会做的。 (但我确实同意,有时显式展开循环显然更好——编译器并不总是最好的判断者。)
不能部分特化成员函数,也不能在不特化外部结构的情况下特化嵌套结构,因此唯一的解决方案是为展开机制使用单独的模板化结构。随意将它放在其他名称空间中:)
展开实现:
template <int N>
struct sequence {
template <typename F,typename... Args>
static void run(F&& f,Args&&... args) {
sequence<N-1>::run(std::forward<F>(f),std::forward<Args>(args)...);
f(args...,N-1);
}
};
template <>
struct sequence<0> {
template <typename F,typename... Args>
static void run(F&& f,Args&&... args) {}
};
这需要一个任意函数对象和一个参数列表,然后使用这些参数和一个附加的最终参数调用该对象 N 次,其中最终参数的范围从 0 到 N-1。通用引用和可变参数模板不是必需的;可以在 C++98 中采用相同的想法,但通用性较低。
round_points<K>
然后用辅助静态成员函数调用 sequence::run<K>
:
template <size_t N>
class TGrid {
public:
template <size_t K>
void round_points(){
for (std::size_t i = 0; i < Xp.size();i++) {
sequence<K>::run(TGrid<N>::round_item,*this,i);
}
}
static void round_item(TGrid &G,int i,int j) {
G.Xp[i][j] = G.min[j] + (std::floor((G.Xp[i][j] - G.min[j]) * G.nbins[j] / (G.max[j] - G.min[j])) * G.bin_w[j]) + G.bin_w[j]/2.0;
}
// ...
};
编辑:附录
使用指向成员函数的指针执行等效操作似乎很难让编译器内联。作为替代方案,为避免使用静态 round_item,您可以使用 lambda,例如:
template <size_t N>
class TGrid {
public:
template <size_t K>
void round_points(){
for (std::size_t i = 0; i < Xp.size();i++) {
sequence<K>::run([&](int j) {round_item(i,j);});
}
}
void round_item(int i,int j) {
Xp[i][j] = min[j] + (std::floor((Xp[i][j] - min[j]) * nbins[j] / (max[j] - min[j])) * bin_w[j]) + bin_w[j]/2.0;
}
// ...
};