将数据框中的分组数据转换为文档,为 word2vec 做准备

Convert grouped data in dataframe to documents in preparation for word2vec

我正在尝试复制 this paper 的作者使用公开可用的 Medicare 数据集取得的成果。

总而言之,作者根据提供者 ID、他们的分类法和 HCPCS(他们执行的程序的代码)按最频繁到最不频繁对医疗提供者的索赔进行分组,见下图:

使用下面的代码我已经能够重新创建左上角 table 和左下角 table (我认为没有必要)但我不知道如何将每个提供商的 HCPCS 代码按最高频率到最低频率分组,以准备将其输入 word2vec 以训练嵌入模型。

如果我能得到一些帮助准备 word2vec 训练的数据,我将不胜感激。

library(httr)
library(jsonlite)
library(tidyverse)

# CONNECT TO CMS DATA
res <- GET("https://data.cms.gov/data-api/v1/dataset/5fccd951-9538-48a7-9075-6f02b9867868/data?size=5000")

# CONVERT TO DATA FRAME
data = fromJSON(rawToChar(res$content))

# GROUPING AND COUNTING OCCURANCES OF HCPCS PER PROVIDER ID
providerHCPCS <- data %>% 
  group_by(Rndrng_NPI,Rndrng_Prvdr_Type,HCPCS_Cd) %>% 
  count(HCPCS_Cd, name = "Line_Srvc_Cnt") %>% 
  group_by(Rndrng_NPI) %>% 
  arrange(desc(Line_Srvc_Cnt), .by_group = TRUE)

这是你想要的结果吗?

table2 <- providerHCPCS %>% group_by(Rndrng_NPI, Rndrng_Prvdr_Type) %>% summarise(HCPCS_sequence = (paste(HCPCS_Cd, collapse=", ")))