如何在R中拉出一定距离内的点?
How to pull points that are within a certain distance away in R?
我有一个参数 space 由 (x,y) 给出,x
值来自 1:5
和 y
值来自 1:8
。假设我当前的点 p
位于 (2,5)
(它是红色的)。我的目标是尝试将所有点拉到距点 p
(蓝色点)一个单位距离内。
我想知道是否有一种有效的方法来做到这一点。假设我的变量以下列方式存储:
xrange <- 1:5
yrange <- 1:8
grid <- expand.grid(xrange,yrange)
p <- data.frame(x=2,y=5)
我想以这种方式存储 p
下面的其他点:
res <- data.frame(x=c(1,1,1,2,2,3,3,3),y=c(4,6,4,5,6,4,5,6))
res <- rbind(p,res)
> res
x y
1 2 5
2 1 4
3 1 6
4 1 4
5 2 5
6 2 6
7 3 4
8 3 5
9 3 6
最终目标是拥有一个二维以上的参数space。所以我最终想找到所有距离 s
欧几里德距离的所有点,并且类似地得到一个结果数据框,其中每一列都是参数 space 中的一个参数,每一行都是一个坐标 (x,y,z,..,etc)
从它的列中。
EDIT 如果我想要圆或欧几里得距离 s
,我已经尝试了以下实现,这似乎可行。我不确定解决方案的效率如何。
eucdist <- function(z,p){
return(dist(rbind(z, p)))
}
# in this case s=1 since that is the <= condition
res <- do.call(rbind,lapply(1:nrow(grid),function(m) if(eucdist(as.numeric(grid[m,]),as.numeric(p[1,])) <= 1){return(grid[m,])}))
更多信息:目前,我的参数 space 被离散化为上图中的参数。最终,一些参数也会与离散参数连续混合。非常感谢!
网格上每个点到目标点的欧式距离p
可以通过以下方式有效计算:
dist <- sqrt(rowSums(mapply(function(x,y) (x-y)^2, grid, p)))
基本上,内部 mapply
调用将生成与 grid
大小相同的矩阵,但该矩阵具有该点与该维度中目标点的平方距离; rowSums
和 sqrt
然后有效地计算欧氏距离。
在这种情况下,您要包括距目标点 sqrt(2)
欧几里得距离的任何内容:
grid[dist < 1.5,]
# Var1 Var2
# 16 1 4
# 17 2 4
# 18 3 4
# 21 1 5
# 22 2 5
# 23 3 5
# 26 1 6
# 27 2 6
# 28 3 6
使用 mapply
(在维度上操作)和 rowSums
比循环遍历网格上的各个点、计算到目标点的距离的方法更有效。要看到这一点,考虑一个稍微大一点的例子,在三个维度上有 1000 个随机分布的点:
set.seed(144)
grid <- data.frame(x=rnorm(1000), y=rnorm(1000), z=rnorm(1000))
p <- data.frame(x=rnorm(1), y=rnorm(1), z=rnorm(1))
lim <- 1.5
byrow <- function(grid, p, lim) grid[apply(grid, 1, function(x) sqrt(sum((x-p)^2))) < lim,]
vectorized <- function(grid, p, lim) grid[sqrt(rowSums(mapply(function(x,y) (x-y)^2, grid, p))) < lim,]
identical(byrow(grid, p, lim), vectorized(grid, p, lim))
[1] TRUE
library(microbenchmark)
# Unit: microseconds
# expr min lq mean median uq max neval
# byrow(grid, p, lim) 446792.71 473428.137 500680.0431 495824.7765 521185.093 579999.745 10
# vectorized(grid, p, lim) 855.33 881.981 954.1773 907.3805 1081.658 1108.679 10
矢量化方法比循环遍历行的方法快 500 倍。
如果您有更多点(在本例中为 100 万),则可以使用此方法:
set.seed(144)
grid <- data.frame(x=rnorm(1000000), y=rnorm(1000000), z=rnorm(1000000))
p <- data.frame(x=rnorm(1), y=rnorm(1), z=rnorm(1))
lim <- 1.5
system.time(vectorized(grid, p, lim))
# user system elapsed
# 3.466 0.136 3.632
这里是如何使用包 FNN
来完成的。结果与您的结果不同,因为您的解决方案有 (1 4) 和 (2 5) 两次。该解决方案还适用于边界数据。如果您的 x 或 y 为 1 或位于矩阵的边缘,您将只有 6 个最近的邻居。
library(FNN)
x <-2
y <- 5
pt <-grid[grid$Var1==x & grid$Var2==y ,] #target point
distance <-knnx.dist(grid,pt,k=9) #distance from pt
k <-length(distance[distance<2]) #distance is less than 2. Useful for border data
nearest <-knnx.index(grid,pt,k=k) #find index of k nearest neighbors
grid[nearest,]
Var1 Var2
22 2 5
23 3 5
27 2 6
21 1 5
17 2 4
26 1 6
28 3 6
18 3 4
16 1 4
我看到你也要求更高的维度。它仍然适用于以下更改:
x <-2
y <- 5
z <-3
pt <-grid[grid$Var1==x & grid$Var2==y & grid$Var3==z ,] #3-dimensional point
distance <-knnx.dist(grid,pt,k=27) #increase to k=27
k <-length(distance[distance<2])
nearest <-knnx.index(grid,pt,k=k)
grid[nearest,]
我有一个参数 space 由 (x,y) 给出,x
值来自 1:5
和 y
值来自 1:8
。假设我当前的点 p
位于 (2,5)
(它是红色的)。我的目标是尝试将所有点拉到距点 p
(蓝色点)一个单位距离内。
我想知道是否有一种有效的方法来做到这一点。假设我的变量以下列方式存储:
xrange <- 1:5
yrange <- 1:8
grid <- expand.grid(xrange,yrange)
p <- data.frame(x=2,y=5)
我想以这种方式存储 p
下面的其他点:
res <- data.frame(x=c(1,1,1,2,2,3,3,3),y=c(4,6,4,5,6,4,5,6))
res <- rbind(p,res)
> res
x y
1 2 5
2 1 4
3 1 6
4 1 4
5 2 5
6 2 6
7 3 4
8 3 5
9 3 6
最终目标是拥有一个二维以上的参数space。所以我最终想找到所有距离 s
欧几里德距离的所有点,并且类似地得到一个结果数据框,其中每一列都是参数 space 中的一个参数,每一行都是一个坐标 (x,y,z,..,etc)
从它的列中。
EDIT 如果我想要圆或欧几里得距离 s
,我已经尝试了以下实现,这似乎可行。我不确定解决方案的效率如何。
eucdist <- function(z,p){
return(dist(rbind(z, p)))
}
# in this case s=1 since that is the <= condition
res <- do.call(rbind,lapply(1:nrow(grid),function(m) if(eucdist(as.numeric(grid[m,]),as.numeric(p[1,])) <= 1){return(grid[m,])}))
更多信息:目前,我的参数 space 被离散化为上图中的参数。最终,一些参数也会与离散参数连续混合。非常感谢!
网格上每个点到目标点的欧式距离p
可以通过以下方式有效计算:
dist <- sqrt(rowSums(mapply(function(x,y) (x-y)^2, grid, p)))
基本上,内部 mapply
调用将生成与 grid
大小相同的矩阵,但该矩阵具有该点与该维度中目标点的平方距离; rowSums
和 sqrt
然后有效地计算欧氏距离。
在这种情况下,您要包括距目标点 sqrt(2)
欧几里得距离的任何内容:
grid[dist < 1.5,]
# Var1 Var2
# 16 1 4
# 17 2 4
# 18 3 4
# 21 1 5
# 22 2 5
# 23 3 5
# 26 1 6
# 27 2 6
# 28 3 6
使用 mapply
(在维度上操作)和 rowSums
比循环遍历网格上的各个点、计算到目标点的距离的方法更有效。要看到这一点,考虑一个稍微大一点的例子,在三个维度上有 1000 个随机分布的点:
set.seed(144)
grid <- data.frame(x=rnorm(1000), y=rnorm(1000), z=rnorm(1000))
p <- data.frame(x=rnorm(1), y=rnorm(1), z=rnorm(1))
lim <- 1.5
byrow <- function(grid, p, lim) grid[apply(grid, 1, function(x) sqrt(sum((x-p)^2))) < lim,]
vectorized <- function(grid, p, lim) grid[sqrt(rowSums(mapply(function(x,y) (x-y)^2, grid, p))) < lim,]
identical(byrow(grid, p, lim), vectorized(grid, p, lim))
[1] TRUE
library(microbenchmark)
# Unit: microseconds
# expr min lq mean median uq max neval
# byrow(grid, p, lim) 446792.71 473428.137 500680.0431 495824.7765 521185.093 579999.745 10
# vectorized(grid, p, lim) 855.33 881.981 954.1773 907.3805 1081.658 1108.679 10
矢量化方法比循环遍历行的方法快 500 倍。
如果您有更多点(在本例中为 100 万),则可以使用此方法:
set.seed(144)
grid <- data.frame(x=rnorm(1000000), y=rnorm(1000000), z=rnorm(1000000))
p <- data.frame(x=rnorm(1), y=rnorm(1), z=rnorm(1))
lim <- 1.5
system.time(vectorized(grid, p, lim))
# user system elapsed
# 3.466 0.136 3.632
这里是如何使用包 FNN
来完成的。结果与您的结果不同,因为您的解决方案有 (1 4) 和 (2 5) 两次。该解决方案还适用于边界数据。如果您的 x 或 y 为 1 或位于矩阵的边缘,您将只有 6 个最近的邻居。
library(FNN)
x <-2
y <- 5
pt <-grid[grid$Var1==x & grid$Var2==y ,] #target point
distance <-knnx.dist(grid,pt,k=9) #distance from pt
k <-length(distance[distance<2]) #distance is less than 2. Useful for border data
nearest <-knnx.index(grid,pt,k=k) #find index of k nearest neighbors
grid[nearest,]
Var1 Var2
22 2 5
23 3 5
27 2 6
21 1 5
17 2 4
26 1 6
28 3 6
18 3 4
16 1 4
我看到你也要求更高的维度。它仍然适用于以下更改:
x <-2
y <- 5
z <-3
pt <-grid[grid$Var1==x & grid$Var2==y & grid$Var3==z ,] #3-dimensional point
distance <-knnx.dist(grid,pt,k=27) #increase to k=27
k <-length(distance[distance<2])
nearest <-knnx.index(grid,pt,k=k)
grid[nearest,]