Java中的int[large][small]和int[small][large]有低级的区别吗?
Is there a low-level difference between int[large][small] or int[small][large] in Java?
这个问题可能需要一些编译器知识才能回答。我目前正在做一个项目,我将创建一个数组,它可以是
int[2][veryLargeNumber]
或
int [veryLargeNumber][2]
这在逻辑上没有区别,但我认为内存中的形式(因此大小)可能不同(也许问题应该是,编译器是否足够聪明以重新排列数组以适应它们)?
Java 实际上只实现了一维数组。它有 multi-dimensional 类型,但是二维数组实际上是作为数组的数组实现的。每个数组有大约 16 个字节的开销。您最好使用 int[2][x]
来最大程度地减少开销。
您可以使用辅助方法完全避免此问题。
final int[] array = new int[2 * veryLargeNumber];
public int get(int x, int y) {
return array[idx(x, y)];
}
public void set(int x, int y, int val) {
array[idx(x, y)] = val;
}
private int idx(int x, int y) {
return x * 2 + y; // or x * veryLargeNumber + y;
}
为了给自己提供这个,每个 object 散列一个唯一的,生成的 hashCode 存储在它的 Object header.
从http://ideone.com/oGbDJ0可以看出,每个嵌套数组本身就是一个object。
int[][] array = new int[20][2];
for (int[] arr : array) {
System.out.println(arr);
}
打印 int[]
的内部表示,即 [I
后跟 @
后跟存储在 header 中的 hashCode()。这并不像某些人认为的那样 object 的地址。地址不能用作 hashCode,因为 object 可以随时被 GC 移动(除非你有一个从不移动 objects 的 JVM)
[I@106d69c
[I@52e922
[I@25154f
[I@10dea4e
[I@647e05
[I@1909752
[I@1f96302
[I@14eac69
[I@a57993
[I@1b84c92
[I@1c7c054
[I@12204a1
[I@a298b7
[I@14991ad
[I@d93b30
[I@16d3586
[I@154617c
[I@a14482
[I@140e19d
[I@17327b6
如果你用 -XX:-UseTLAB
关闭 TLAB,你可以看到使用了多少内存
https://github.com/peter-lawrey/Performance-Examples/blob/master/src/main/java/vanilla/java/memory/ArrayAllocationMain.java
public static void main(String[] args) {
long used1 = memoryUsed();
int[][] array = new int[200][2];
long used2 = memoryUsed();
int[][] array2 = new int[2][200];
long used3 = memoryUsed();
if (used1 == used2) {
System.err.println("You need to turn off the TLAB with -XX:-UseTLAB");
} else {
System.out.printf("Space used by int[200][2] is " + (used2 - used1) + " bytes%n");
System.out.printf("Space used by int[2][200] is " + (used3 - used2) + " bytes%n");
}
}
public static long memoryUsed() {
Runtime rt = Runtime.getRuntime();
return rt.totalMemory() - rt.freeMemory();
}
打印
Space used by int[200][2] is 5720 bytes
Space used by int[2][200] is 1656 bytes
有趣的问题,我运行一个简单的程序
int N = 100000000;
long start = System.currentTimeMillis();
int[][] a = new int[2][N];
System.out.println(System.currentTimeMillis() - start + " ms");
这导致 160 ms
。然后我运行另一个变体
int N = 100000000;
long start = System.currentTimeMillis();
int[][] a = new int[N][2];
System.out.println(System.currentTimeMillis() - start + " ms");
这导致 30897 ms
。所以确实第一个选项似乎好很多。
int[2][veryLargeNumber]
创建两个包含项目数量的数组
而
int[veryLargeNumber][2]
创建非常大量的包含两个项目的数组。
注意:数组创建有开销。所以更喜欢第一个
简而言之,int[2][veryLargeNumber]
是更好的方法。
Peter (int[] array = new int[2 * veryLargeNumber];
) 建议的更好,或者如果内存是你的问题,那么你可以使用长整型而不是整数 (long[] array = new long[veryLargeNumber];
) 和按位运算符,或者更好, 尽可能使用缓存。
小心!大多数 JDK/JRE 发行版(Sun 和 Oracle 的)中的表示 [I@106d69c
由 System.identityHashCode()
给出,并且 保证 每个对象都是唯一的。所以你不能依赖 System.out.println(array);
来检查数组对象的唯一性。
这个问题可能需要一些编译器知识才能回答。我目前正在做一个项目,我将创建一个数组,它可以是
int[2][veryLargeNumber]
或
int [veryLargeNumber][2]
这在逻辑上没有区别,但我认为内存中的形式(因此大小)可能不同(也许问题应该是,编译器是否足够聪明以重新排列数组以适应它们)?
Java 实际上只实现了一维数组。它有 multi-dimensional 类型,但是二维数组实际上是作为数组的数组实现的。每个数组有大约 16 个字节的开销。您最好使用 int[2][x]
来最大程度地减少开销。
您可以使用辅助方法完全避免此问题。
final int[] array = new int[2 * veryLargeNumber];
public int get(int x, int y) {
return array[idx(x, y)];
}
public void set(int x, int y, int val) {
array[idx(x, y)] = val;
}
private int idx(int x, int y) {
return x * 2 + y; // or x * veryLargeNumber + y;
}
为了给自己提供这个,每个 object 散列一个唯一的,生成的 hashCode 存储在它的 Object header.
从http://ideone.com/oGbDJ0可以看出,每个嵌套数组本身就是一个object。
int[][] array = new int[20][2];
for (int[] arr : array) {
System.out.println(arr);
}
打印 int[]
的内部表示,即 [I
后跟 @
后跟存储在 header 中的 hashCode()。这并不像某些人认为的那样 object 的地址。地址不能用作 hashCode,因为 object 可以随时被 GC 移动(除非你有一个从不移动 objects 的 JVM)
[I@106d69c
[I@52e922
[I@25154f
[I@10dea4e
[I@647e05
[I@1909752
[I@1f96302
[I@14eac69
[I@a57993
[I@1b84c92
[I@1c7c054
[I@12204a1
[I@a298b7
[I@14991ad
[I@d93b30
[I@16d3586
[I@154617c
[I@a14482
[I@140e19d
[I@17327b6
如果你用 -XX:-UseTLAB
关闭 TLAB,你可以看到使用了多少内存
https://github.com/peter-lawrey/Performance-Examples/blob/master/src/main/java/vanilla/java/memory/ArrayAllocationMain.java
public static void main(String[] args) {
long used1 = memoryUsed();
int[][] array = new int[200][2];
long used2 = memoryUsed();
int[][] array2 = new int[2][200];
long used3 = memoryUsed();
if (used1 == used2) {
System.err.println("You need to turn off the TLAB with -XX:-UseTLAB");
} else {
System.out.printf("Space used by int[200][2] is " + (used2 - used1) + " bytes%n");
System.out.printf("Space used by int[2][200] is " + (used3 - used2) + " bytes%n");
}
}
public static long memoryUsed() {
Runtime rt = Runtime.getRuntime();
return rt.totalMemory() - rt.freeMemory();
}
打印
Space used by int[200][2] is 5720 bytes
Space used by int[2][200] is 1656 bytes
有趣的问题,我运行一个简单的程序
int N = 100000000;
long start = System.currentTimeMillis();
int[][] a = new int[2][N];
System.out.println(System.currentTimeMillis() - start + " ms");
这导致 160 ms
。然后我运行另一个变体
int N = 100000000;
long start = System.currentTimeMillis();
int[][] a = new int[N][2];
System.out.println(System.currentTimeMillis() - start + " ms");
这导致 30897 ms
。所以确实第一个选项似乎好很多。
int[2][veryLargeNumber]
创建两个包含项目数量的数组
而
int[veryLargeNumber][2]
创建非常大量的包含两个项目的数组。
注意:数组创建有开销。所以更喜欢第一个
简而言之,int[2][veryLargeNumber]
是更好的方法。
Peter (int[] array = new int[2 * veryLargeNumber];
) 建议的更好,或者如果内存是你的问题,那么你可以使用长整型而不是整数 (long[] array = new long[veryLargeNumber];
) 和按位运算符,或者更好, 尽可能使用缓存。
小心!大多数 JDK/JRE 发行版(Sun 和 Oracle 的)中的表示 [I@106d69c
由 System.identityHashCode()
给出,并且 保证 每个对象都是唯一的。所以你不能依赖 System.out.println(array);
来检查数组对象的唯一性。