用于 R 导入的数组数据的最有效格式?
Most efficient format for array data for R import?
我处于令人羡慕的地位,能够提前为我的数据收集设置格式,而不是被交给一些疯狂的格式并不得不与之抗争。我想确保我设置它的方式可以最大限度地减少路上的麻烦,但我不太熟悉导入多维数组,所以我想要输入。这似乎也是一种思维练习,其他人可能会从中受益。
我正在编制大量数据摘要 (500+),每个实验有 23 个单一数据值,另外还有两个向量在 100 到 1500 个数据值之间变化(这两个向量碰巧总是在长度上匹配样本,但每个样本的长度不同)。我必须将所有这些存储在我当前正在构建的 Excel sheet 中。我想以一种有效存储此数据以导入到 R 数组中的方式进行设置。
我假设长度不同的较长维度将具有最大长度 (1500) 和最后的一堆 NA,而不是试图跟踪 Excel 中参差不齐的数据.
我目前的计划是将这些以长格式存储在 Excel 中,第一列中有数据标签(dim1,dim2,...),随后的每一列中有数据摘要(a , b, c...), 因为这样可以节省最多 space。以较小的维数为例(7 个单值,2 个长度为 1500 的向量),数据在 Excel:
中看起来像这样
a b c...
dim1 2 5 7...
dim2 3 6 8...
dim3 6 8 2 ...
dim4 5 6 1...
dim5 6 2 1...
dim6 0 3 8...
dim7 8 5 4...
dim8 1 1 1...
dim8 2 2 2 ...
... continued x1500
dim9 4 4 4...
dim9 5 5 5 ...
...continued x1500
我可以很容易地导入这个,使用最左边的列来标识长格式数组的维度吗?我没有看到使用 Reshape2 执行此操作的简单方法,但也许我遗漏了一些东西。或者,我是否需要将数据放在成对的列中?
我不清楚这种格式是否是组织此数据以导入多维数组的最有效方式,或者是否有更好的方式。最终会有大量的样本,所以我想现在就考虑清楚,而不是以后再挣扎。
最简单的导入方法是什么...或者,是否有更有效的方法来设置它以便于导入?
嗯..我想不出你必须使用 melt
的情况。如果您保留当前格式,并向 'dim' 列添加标题,那么您应该能够相当轻松地处理该数据。
如果你确实转置了 'dim' 上的数据,我认为这会使事情变得更加困难。
最好知道变量类型 a、b、c 等。是为了做出更好的评估。
我处于令人羡慕的地位,能够提前为我的数据收集设置格式,而不是被交给一些疯狂的格式并不得不与之抗争。我想确保我设置它的方式可以最大限度地减少路上的麻烦,但我不太熟悉导入多维数组,所以我想要输入。这似乎也是一种思维练习,其他人可能会从中受益。
我正在编制大量数据摘要 (500+),每个实验有 23 个单一数据值,另外还有两个向量在 100 到 1500 个数据值之间变化(这两个向量碰巧总是在长度上匹配样本,但每个样本的长度不同)。我必须将所有这些存储在我当前正在构建的 Excel sheet 中。我想以一种有效存储此数据以导入到 R 数组中的方式进行设置。
我假设长度不同的较长维度将具有最大长度 (1500) 和最后的一堆 NA,而不是试图跟踪 Excel 中参差不齐的数据.
我目前的计划是将这些以长格式存储在 Excel 中,第一列中有数据标签(dim1,dim2,...),随后的每一列中有数据摘要(a , b, c...), 因为这样可以节省最多 space。以较小的维数为例(7 个单值,2 个长度为 1500 的向量),数据在 Excel:
中看起来像这样 a b c...
dim1 2 5 7...
dim2 3 6 8...
dim3 6 8 2 ...
dim4 5 6 1...
dim5 6 2 1...
dim6 0 3 8...
dim7 8 5 4...
dim8 1 1 1...
dim8 2 2 2 ...
... continued x1500
dim9 4 4 4...
dim9 5 5 5 ...
...continued x1500
我可以很容易地导入这个,使用最左边的列来标识长格式数组的维度吗?我没有看到使用 Reshape2 执行此操作的简单方法,但也许我遗漏了一些东西。或者,我是否需要将数据放在成对的列中?
我不清楚这种格式是否是组织此数据以导入多维数组的最有效方式,或者是否有更好的方式。最终会有大量的样本,所以我想现在就考虑清楚,而不是以后再挣扎。
最简单的导入方法是什么...或者,是否有更有效的方法来设置它以便于导入?
嗯..我想不出你必须使用 melt
的情况。如果您保留当前格式,并向 'dim' 列添加标题,那么您应该能够相当轻松地处理该数据。
如果你确实转置了 'dim' 上的数据,我认为这会使事情变得更加困难。
最好知道变量类型 a、b、c 等。是为了做出更好的评估。