如何在 R 中为非常大的数据集使用 poweRlaw 包?
How to use poweRlaw package in R for very big datasets?
我正在将幂律拟合到 4500 万行向量,为此我在 R 中使用 poweRlaw 包:https://arxiv.org/pdf/1407.3492.pdf
该过程中计算量最大的部分是估计下限,这是使用 estimate_xmin()
函数完成的。这需要很多时间。
代码如下(w
是向量,c_pl
来自 "continuous power-law"):
c_pl <- conpl$new(w)
est <- estimate_xmin(c_pl)
c_pl$setXmin(est)
我想知道如何以最小化处理时间的方式使用 estimate_xmin()
函数(也许是并行计算?)我正在使用具有 16 个内核和 64GB RAM 的 AWS 实例。谢谢。
estimate_xmin
花费这么长时间的原因是因为它正在尝试 xmin
的所有可能值。该函数有一个参数 xmins
,您可以使用它来截断此搜索,例如
estimate_xmin(m, xmins=c(10, 100, 1000, 10000))
将从 10、100、1000 和 10000 中找出最佳的 xmin。
我正在将幂律拟合到 4500 万行向量,为此我在 R 中使用 poweRlaw 包:https://arxiv.org/pdf/1407.3492.pdf
该过程中计算量最大的部分是估计下限,这是使用 estimate_xmin()
函数完成的。这需要很多时间。
代码如下(w
是向量,c_pl
来自 "continuous power-law"):
c_pl <- conpl$new(w)
est <- estimate_xmin(c_pl)
c_pl$setXmin(est)
我想知道如何以最小化处理时间的方式使用 estimate_xmin()
函数(也许是并行计算?)我正在使用具有 16 个内核和 64GB RAM 的 AWS 实例。谢谢。
estimate_xmin
花费这么长时间的原因是因为它正在尝试 xmin
的所有可能值。该函数有一个参数 xmins
,您可以使用它来截断此搜索,例如
estimate_xmin(m, xmins=c(10, 100, 1000, 10000))
将从 10、100、1000 和 10000 中找出最佳的 xmin。