将数据框中的分组数据转换为文档,为 word2vec 做准备
Convert grouped data in dataframe to documents in preparation for word2vec
我正在尝试复制 this paper 的作者使用公开可用的 Medicare 数据集取得的成果。
总而言之,作者根据提供者 ID、他们的分类法和 HCPCS(他们执行的程序的代码)按最频繁到最不频繁对医疗提供者的索赔进行分组,见下图:
使用下面的代码我已经能够重新创建左上角 table 和左下角 table (我认为没有必要)但我不知道如何将每个提供商的 HCPCS 代码按最高频率到最低频率分组,以准备将其输入 word2vec 以训练嵌入模型。
如果我能得到一些帮助准备 word2vec 训练的数据,我将不胜感激。
library(httr)
library(jsonlite)
library(tidyverse)
# CONNECT TO CMS DATA
res <- GET("https://data.cms.gov/data-api/v1/dataset/5fccd951-9538-48a7-9075-6f02b9867868/data?size=5000")
# CONVERT TO DATA FRAME
data = fromJSON(rawToChar(res$content))
# GROUPING AND COUNTING OCCURANCES OF HCPCS PER PROVIDER ID
providerHCPCS <- data %>%
group_by(Rndrng_NPI,Rndrng_Prvdr_Type,HCPCS_Cd) %>%
count(HCPCS_Cd, name = "Line_Srvc_Cnt") %>%
group_by(Rndrng_NPI) %>%
arrange(desc(Line_Srvc_Cnt), .by_group = TRUE)
这是你想要的结果吗?
table2 <- providerHCPCS %>% group_by(Rndrng_NPI, Rndrng_Prvdr_Type) %>% summarise(HCPCS_sequence = (paste(HCPCS_Cd, collapse=", ")))
我正在尝试复制 this paper 的作者使用公开可用的 Medicare 数据集取得的成果。
总而言之,作者根据提供者 ID、他们的分类法和 HCPCS(他们执行的程序的代码)按最频繁到最不频繁对医疗提供者的索赔进行分组,见下图:
使用下面的代码我已经能够重新创建左上角 table 和左下角 table (我认为没有必要)但我不知道如何将每个提供商的 HCPCS 代码按最高频率到最低频率分组,以准备将其输入 word2vec 以训练嵌入模型。
如果我能得到一些帮助准备 word2vec 训练的数据,我将不胜感激。
library(httr)
library(jsonlite)
library(tidyverse)
# CONNECT TO CMS DATA
res <- GET("https://data.cms.gov/data-api/v1/dataset/5fccd951-9538-48a7-9075-6f02b9867868/data?size=5000")
# CONVERT TO DATA FRAME
data = fromJSON(rawToChar(res$content))
# GROUPING AND COUNTING OCCURANCES OF HCPCS PER PROVIDER ID
providerHCPCS <- data %>%
group_by(Rndrng_NPI,Rndrng_Prvdr_Type,HCPCS_Cd) %>%
count(HCPCS_Cd, name = "Line_Srvc_Cnt") %>%
group_by(Rndrng_NPI) %>%
arrange(desc(Line_Srvc_Cnt), .by_group = TRUE)
这是你想要的结果吗?
table2 <- providerHCPCS %>% group_by(Rndrng_NPI, Rndrng_Prvdr_Type) %>% summarise(HCPCS_sequence = (paste(HCPCS_Cd, collapse=", ")))