如何使用 Plotly 在 R 中正确分组

How to get the grouping right in R with Plotly

我在 R 下的 Plotly 中对数据进行分组时遇到了一些问题。首先,我使用 csv 文件中的本地数据,并通过以下方式读取它们:

geogrid_data <- read.delim('geogrid.csv', row.names = NULL, stringsAsFactors = TRUE)

绘图进行得很顺利,使用了以下内容:

library(plotly)
library(RColorBrewer)

x <- list(
  title = 'Date'
)
p <- plotly::plot_ly(geogrid_data,
type = 'scatter',
x = ~ts_now,
y = ~absolute_v_sum,
text = paste('Table: ', geogrid_data$table_name,
             '<br>Absolute_v_Sum: ', geogrid_data$absolute_v_sum),
hoverinfo = 'text',
mode = 'lines',
color = list(
  color = colorRampPalette(RColorBrewer::brewer.pal(11,'Spectral'))(
    length(unique(geogrid_data$table_name))
  )
),

transforms = list(
  list(
    type = 'groupby',
    groups = ~table_name
  )
)
) %>% layout(showlegend = TRUE, xaxis = x)

此处输出:

然后我打算将数据源改成Oracle数据库table,读取数据如下,使用ROracle包:

# retrieve data into resultSet object
rs <- dbSendQuery(con, "SELECT * FROM GEOGRID_STATS")
# fetch records from the resultSet into a data.frame
geogrid_data <- fetch(rs)
# free resources occupied by resultSet
dbClearResult(rs)
dbUnloadDriver(drv)
# remove duplicates from dataframe (based on TABLE_NAME, TS_BEFORE, TS_NOW, NOW_SUM)
geogrid_data <-  geogrid_data %>% distinct(TABLE_NAME, TS_BEFORE, TS_NOW, NOW_SUM, .keep_all = TRUE)
# alter date columns in place
geogrid_data$TS_BEFORE <- as.Date(geogrid_data$TS_BEFORE, format='%d-%m-%Y')
geogrid_data$TS_NOW <- as.Date(geogrid_data$TS_NOW, format='%d-%m-%Y')

并将绘图调整为:

p <- plotly::plot_ly(
type = 'scatter',
x = geogrid_data$TS_NOW,
y = geogrid_data$ABSOLUTE_V_SUM,
text = paste('Table: ', geogrid_data$TABLE_NAME,
             '<br>Absolute_v_Sum: ', geogrid_data$ABSOLUTE_V_SUM,
             '<br>Date: ', geogrid_data$TS_NOW),
hoverinfo = 'text',
mode = 'lines',
color = list(
  color = colorRampPalette(RColorBrewer::brewer.pal(11,'Spectral'))(
    length(unique(geogrid_data$TABLE_NAME))
  )
),

transforms = list(
  list(
    type = 'groupby',
    groups = geogrid_data$TABLE_NAME
  )
)
) %>% layout(showlegend = TRUE, xaxis = x)

不幸的是,这似乎导致分组出现问题。:

当鼠标悬停在数据点上时,您可以从标签文本中看到,该点代表来自 NY_SKOV_PLANTEB_MW_POLY 的数据,而图例设置为显示来自 NY_BYGN_MW_POLY。查看此图中的其他数据点,我发现此图中各种点的混合,其中一些代表 NY_BYGN_MW_POLY 的数据,其中大部分不是。

关于时间线的绘图也不再起作用,例如数据绘制开始于 Dec.11 - Dec.10 - Dec.10 - Dec.12 - Dec.20 - Dec.17 - Dec.16 - Dec.15.

我在处理数据时哪里出错了,我必须怎么做才能正确处理?

当然,应该看看数据...谢谢 Marco,在你的问题之后我确实看了我的数据。

有些地方我只是假设。 使用 csv 文件中的数据可以很好地绘制所有数据的原因很简单。 csv 文件中手动编译的所有信息均来自按日期排序的电子邮件中的信息。因此,我编译了按日期排序的 csv 文件中的数据,Plotly 按 table_name.

分组数据没有任何问题

查看我的数据后,我进行了整理,只保留我需要在图中显示的数据,并使用 dplyr 按时间对数据进行排序。

geogrid_data <- dplyr::arrange(geogrid_data, TS_NOW)

仅按时间而不按时间table名称 因为按 table name 排序是由 Plotly 和 groupby 语句

完成的