根据 R 中的另一个点数据集为多边形中的每个点着色
Color every point in a polygon depending on another dataset of points, in R
问题:
1.) 我有一个 shapefile 看起来像这样:
坐标的极值是:xmin = 300,000
、xmax = 620,000
、ymin = 31,000
和 ymax = 190,000
。
2.) 我有一个 数据集 大约。 2mio 点(每个点都在给定的多边形内)——每个点都属于 5 个不同类别中的一个。
现在,对于边界内的每个点(点之间的距离必须为 10
,这样我们就会得到 580,800,000
点)我想确定颜色,具体取决于数据集中最近的点。
最后我想画一个ggplot
,每个点的颜色取决于它的类别(所以我会使用5
不同的颜色)。
我目前有:
我的解决方案未得到优化,R 永远需要确定多边形内每个点的类别。
1.) 我创建了一个新的数据集,其中包含具有极值坐标的矩形形状的点,点之间有 10
个单位。从一个新的数据集中,我选择了落在多边形边界内的点(使用包 SDMTools
中的函数 pnt.in.poly
)。然后我想找到多边形中每个点的最近点(来自数据集)并确定类别,但我从来没有设法从 580,800,000
点(显然)中获得一个子集。
2.) 我尝试取 2mio 点并根据它们的类别为它们周围的区域着色,但这并不奏效。
我知道不可能绘制这么多点并查看 200,000,000
点绘图和 1,000,000
点绘图之间的区别,但我希望在仅缩放(绘图)多边形中的一个小点(例如 100 x 100
的大小)。
问题:有没有更好的方法来为多边形中的这么多点着色(通过创建新的 shapefile 或分组点)?
谢谢你的想法!
如果您在问题中包含一些数据,那真的很有帮助,即使(尤其是)它是一个玩具数据集。正如你所做的那样,我做了一个玩具示例。首先,我定义了一个简单的形状数据框和一个包含 x
、y
和 grp
(即具有 5 个级别的分类变量)的合成数据的数据框。我将后者裁剪为前者并绘制结果,
# Dummy shape function
df_shape <- data.frame(x = c(0, 0.5, 1, 0.5, 0),
y = c(0, 0.2, 1, 0.8, 0))
# Load library
library(ggplot2)
library(sgeostat) # For in.polygon function
# Data frame of synthetic data: random [x, y] and category (grp)
df_synth <- data.frame(x = runif(500),
y = runif(500),
grp = factor(sample(1:5, 500, replace = TRUE)))
# Remove points outside polygon
df_synth <- df_synth[in.polygon(df_synth$x, df_synth$y, df_shape$x, df_shape$y), ]
# Plot shape and synthetic data
g <- ggplot(df_shape, aes(x = x, y = y)) + geom_path(colour = "#FF3300", size = 1.5)
g <- g + ggthemes::theme_clean()
g <- g + geom_point(data = df_synth, aes(x = x, y = y, colour = grp))
g
接下来,我创建一个规则网格并使用多边形裁剪它。
# Create a grid
df_grid <- expand.grid(x = seq(0, 1, length.out = 50),
y = seq(0, 1, length.out = 50))
# Check if grid points are in polygon
df_grid <- df_grid[in.polygon(df_grid$x, df_grid$y, df_shape$x, df_shape$y), ]
# Plot shape and show points are inside
g <- ggplot(df_shape, aes(x = x, y = y)) + geom_path(colour = "#FF3300", size = 1.5)
g <- g + ggthemes::theme_clean()
g <- g + geom_point(data = df_grid, aes(x = x, y = y))
g
为了根据合成数据集中最近的点对该网格上的每个点进行分类,我使用 knn
或 k-nearest-neighbours 且 k = 1。这给出了这样的结果。
# Classify grid points according to synthetic data set using k-nearest neighbour
df_grid$grp <- class::knn(df_synth[, 1:2], df_grid, df_synth[, 3])
# Show categorised points
g <- ggplot()
g <- g + ggthemes::theme_clean()
g <- g + geom_point(data = df_grid, aes(x = x, y = y, colour = grp))
g
所以,这就是我如何解决您关于对网格上的点进行分类的那部分问题。
你问题的另一部分似乎与解决方案有关。如果我理解正确的话,即使你放大了,你也想要相同的分辨率。另外,你不想在缩小时绘制这么多点,因为你甚至看不到它们。在这里,我创建了一个绘图函数,可让您指定分辨率。首先,我绘制形状中的所有点,每个方向有 50 个点。然后,我绘制了一个子区域(即缩放),但在每个方向上保持相同数量的点相同,因此它看起来与之前的图在点数方面几乎相同。
res_plot <- function(xlim, xn, ylim, yn, df_data, df_sh){
# Create a grid
df_gr <- expand.grid(x = seq(xlim[1], xlim[2], length.out = xn),
y = seq(ylim[1], ylim[2], length.out = yn))
# Check if grid points are in polygon
df_gr <- df_gr[in.polygon(df_gr$x, df_gr$y, df_sh$x, df_sh$y), ]
# Classify grid points according to synthetic data set using k-nearest neighbour
df_gr$grp <- class::knn(df_data[, 1:2], df_gr, df_data[, 3])
g <- ggplot()
g <- g + ggthemes::theme_clean()
g <- g + geom_point(data = df_gr, aes(x = x, y = y, colour = grp))
g <- g + xlim(xlim) + ylim(ylim)
g
}
# Example plot
res_plot(c(0, 1), 50, c(0, 1), 50, df_synth, df_shape)
# Same resolution, but different limits
res_plot(c(0.25, 0.75), 50, c(0, 1), 50, df_synth, df_shape)
由 reprex package (v0.3.0)
于 2019-05-31 创建
希望这能解决您的问题。
问题:
1.) 我有一个 shapefile 看起来像这样:
坐标的极值是:xmin = 300,000
、xmax = 620,000
、ymin = 31,000
和 ymax = 190,000
。
2.) 我有一个 数据集 大约。 2mio 点(每个点都在给定的多边形内)——每个点都属于 5 个不同类别中的一个。
现在,对于边界内的每个点(点之间的距离必须为 10
,这样我们就会得到 580,800,000
点)我想确定颜色,具体取决于数据集中最近的点。
最后我想画一个ggplot
,每个点的颜色取决于它的类别(所以我会使用5
不同的颜色)。
我目前有:
我的解决方案未得到优化,R 永远需要确定多边形内每个点的类别。
1.) 我创建了一个新的数据集,其中包含具有极值坐标的矩形形状的点,点之间有 10
个单位。从一个新的数据集中,我选择了落在多边形边界内的点(使用包 SDMTools
中的函数 pnt.in.poly
)。然后我想找到多边形中每个点的最近点(来自数据集)并确定类别,但我从来没有设法从 580,800,000
点(显然)中获得一个子集。
2.) 我尝试取 2mio 点并根据它们的类别为它们周围的区域着色,但这并不奏效。
我知道不可能绘制这么多点并查看 200,000,000
点绘图和 1,000,000
点绘图之间的区别,但我希望在仅缩放(绘图)多边形中的一个小点(例如 100 x 100
的大小)。
问题:有没有更好的方法来为多边形中的这么多点着色(通过创建新的 shapefile 或分组点)?
谢谢你的想法!
如果您在问题中包含一些数据,那真的很有帮助,即使(尤其是)它是一个玩具数据集。正如你所做的那样,我做了一个玩具示例。首先,我定义了一个简单的形状数据框和一个包含 x
、y
和 grp
(即具有 5 个级别的分类变量)的合成数据的数据框。我将后者裁剪为前者并绘制结果,
# Dummy shape function
df_shape <- data.frame(x = c(0, 0.5, 1, 0.5, 0),
y = c(0, 0.2, 1, 0.8, 0))
# Load library
library(ggplot2)
library(sgeostat) # For in.polygon function
# Data frame of synthetic data: random [x, y] and category (grp)
df_synth <- data.frame(x = runif(500),
y = runif(500),
grp = factor(sample(1:5, 500, replace = TRUE)))
# Remove points outside polygon
df_synth <- df_synth[in.polygon(df_synth$x, df_synth$y, df_shape$x, df_shape$y), ]
# Plot shape and synthetic data
g <- ggplot(df_shape, aes(x = x, y = y)) + geom_path(colour = "#FF3300", size = 1.5)
g <- g + ggthemes::theme_clean()
g <- g + geom_point(data = df_synth, aes(x = x, y = y, colour = grp))
g
接下来,我创建一个规则网格并使用多边形裁剪它。
# Create a grid
df_grid <- expand.grid(x = seq(0, 1, length.out = 50),
y = seq(0, 1, length.out = 50))
# Check if grid points are in polygon
df_grid <- df_grid[in.polygon(df_grid$x, df_grid$y, df_shape$x, df_shape$y), ]
# Plot shape and show points are inside
g <- ggplot(df_shape, aes(x = x, y = y)) + geom_path(colour = "#FF3300", size = 1.5)
g <- g + ggthemes::theme_clean()
g <- g + geom_point(data = df_grid, aes(x = x, y = y))
g
为了根据合成数据集中最近的点对该网格上的每个点进行分类,我使用 knn
或 k-nearest-neighbours 且 k = 1。这给出了这样的结果。
# Classify grid points according to synthetic data set using k-nearest neighbour
df_grid$grp <- class::knn(df_synth[, 1:2], df_grid, df_synth[, 3])
# Show categorised points
g <- ggplot()
g <- g + ggthemes::theme_clean()
g <- g + geom_point(data = df_grid, aes(x = x, y = y, colour = grp))
g
所以,这就是我如何解决您关于对网格上的点进行分类的那部分问题。
你问题的另一部分似乎与解决方案有关。如果我理解正确的话,即使你放大了,你也想要相同的分辨率。另外,你不想在缩小时绘制这么多点,因为你甚至看不到它们。在这里,我创建了一个绘图函数,可让您指定分辨率。首先,我绘制形状中的所有点,每个方向有 50 个点。然后,我绘制了一个子区域(即缩放),但在每个方向上保持相同数量的点相同,因此它看起来与之前的图在点数方面几乎相同。
res_plot <- function(xlim, xn, ylim, yn, df_data, df_sh){
# Create a grid
df_gr <- expand.grid(x = seq(xlim[1], xlim[2], length.out = xn),
y = seq(ylim[1], ylim[2], length.out = yn))
# Check if grid points are in polygon
df_gr <- df_gr[in.polygon(df_gr$x, df_gr$y, df_sh$x, df_sh$y), ]
# Classify grid points according to synthetic data set using k-nearest neighbour
df_gr$grp <- class::knn(df_data[, 1:2], df_gr, df_data[, 3])
g <- ggplot()
g <- g + ggthemes::theme_clean()
g <- g + geom_point(data = df_gr, aes(x = x, y = y, colour = grp))
g <- g + xlim(xlim) + ylim(ylim)
g
}
# Example plot
res_plot(c(0, 1), 50, c(0, 1), 50, df_synth, df_shape)
# Same resolution, but different limits
res_plot(c(0.25, 0.75), 50, c(0, 1), 50, df_synth, df_shape)
由 reprex package (v0.3.0)
于 2019-05-31 创建希望这能解决您的问题。