使用 h2o 读取 svmLigh 格式
Reading svmLigh format with h2o
使用 h2o R 包 (v 3.24.0.5) 进行一些深度学习,我需要将一些大的稀疏矩阵 [2M * 10k] 导入其中。
我试过使用 fwrite 但遇到了一个 cholmod 问题太大的错误,所以选择了 svmlight。
原始矩阵如下所示:
Count Dist
1 nan 10.1266
2 859.124 10.8198
3 nan 10.1266
为此,我使用了 sparsio 包,写入正常,但在使用 h2o.importFile 读取文件时,我发现有问题:
我在每个数字前面都得到了列索引,如下所示:
library(sparsio)
write_svmlight(HiC_mat.All, file="Rdata/mat_kmer-NA.txt")
HIC_df = h2o.importFile("Rdata/mat_kmer-NA.txt")
HIC_df[1:3,1:3]
C1 C2 C3
1 0 0:nan 1:10.1266
2 0 0:859.124 1:10.8198
3 0 0:nan 1:10.1266
知道如何摆脱这些吗?
数据应如下所示:
C1 C2 C3
1 0 nan 10.1266
2 0 859.124 10.8198
3 0 nan 10.1266
好的,问题似乎确实出在我使用的 svm 文件中:
write_svmlight(x, y = numeric(nrow(x)), file = filename, zero_based = FALSE)
目前有效
使用 h2o R 包 (v 3.24.0.5) 进行一些深度学习,我需要将一些大的稀疏矩阵 [2M * 10k] 导入其中。 我试过使用 fwrite 但遇到了一个 cholmod 问题太大的错误,所以选择了 svmlight。 原始矩阵如下所示:
Count Dist
1 nan 10.1266
2 859.124 10.8198
3 nan 10.1266
为此,我使用了 sparsio 包,写入正常,但在使用 h2o.importFile 读取文件时,我发现有问题: 我在每个数字前面都得到了列索引,如下所示:
library(sparsio)
write_svmlight(HiC_mat.All, file="Rdata/mat_kmer-NA.txt")
HIC_df = h2o.importFile("Rdata/mat_kmer-NA.txt")
HIC_df[1:3,1:3]
C1 C2 C3
1 0 0:nan 1:10.1266
2 0 0:859.124 1:10.8198
3 0 0:nan 1:10.1266
知道如何摆脱这些吗?
数据应如下所示:
C1 C2 C3
1 0 nan 10.1266
2 0 859.124 10.8198
3 0 nan 10.1266
好的,问题似乎确实出在我使用的 svm 文件中:
write_svmlight(x, y = numeric(nrow(x)), file = filename, zero_based = FALSE)
目前有效