转换源数据的最佳方式?
Best way to transform source data?
在R中工作。但我认为这个问题是普遍的。
《华尔街日报》 可视化了 U.S 中疾病感染率的数据集:
X 轴是年份。 Y轴是状态。
每个图块的红色阴影是当年记录的特定州的感染率强度。
正在可视化的源数据集排列如下:
数据集中的每一行对应于给定年份中单个国家/地区的单个感染率。因此,可视化中的每个红色图块对应于数据集中的一行。
但是如果数据集看起来像这样呢?:
现在,每一行对应一个州。每个 state/row 都有多个感染率,每年记录一个。这可能与现实世界中捕获数据的方式相匹配,因为对于每年或每天(在冠状病毒的情况下)您跟踪感染率,您只需添加一个新列(而不是 50 个新行)。
问题是虽然这种布局更人性化,但对 R 不太友好。我们可以根据感染率排列的源数据集排列轻松创建图块可视化,但如果按州排列则不那么容易。
所以,最后,我的问题是 — 在 Excel 中,是否有一种简单的方法可以将数据从第二个布局转换为第一个布局?
在将数据文件加载到 R 之前,您可以使用免费开源工具 OpenRefine 中的转置函数来准备数据文件。
在R中工作。但我认为这个问题是普遍的。
《华尔街日报》 可视化了 U.S 中疾病感染率的数据集:
X 轴是年份。 Y轴是状态。
每个图块的红色阴影是当年记录的特定州的感染率强度。
正在可视化的源数据集排列如下:
数据集中的每一行对应于给定年份中单个国家/地区的单个感染率。因此,可视化中的每个红色图块对应于数据集中的一行。
但是如果数据集看起来像这样呢?:
现在,每一行对应一个州。每个 state/row 都有多个感染率,每年记录一个。这可能与现实世界中捕获数据的方式相匹配,因为对于每年或每天(在冠状病毒的情况下)您跟踪感染率,您只需添加一个新列(而不是 50 个新行)。
问题是虽然这种布局更人性化,但对 R 不太友好。我们可以根据感染率排列的源数据集排列轻松创建图块可视化,但如果按州排列则不那么容易。
所以,最后,我的问题是 — 在 Excel 中,是否有一种简单的方法可以将数据从第二个布局转换为第一个布局?
在将数据文件加载到 R 之前,您可以使用免费开源工具 OpenRefine 中的转置函数来准备数据文件。