从行分隔文件制作列
making columns from a line separated file
我20分钟前才开始学习openrefine。我有一个文本文件,其中的数据在每个数据块的开头由一致的 header ("JP") 分隔。数据块的行数并不完全相同。我希望原始数据的每一块都在 openrefine 中的一行中。我该怎么做?
编辑:这是一个示例。这是一个相当混乱的文件,但我可以指望每个不同条目开头的 JP..
JP
0034
1-25-60
01
checked 1/92
I am so happy to have taken these. The brown envelopes, blah blah. roll 1: Is a retirement event [EW]
JP
0035
2-1-60
01
checked 1/92
Bill therapy
JP
0036
2-11-60
01
Checked 1/92
Bill: there are many
EW: The bills look good.
I remember Babies used to look like this everyday, with the staff coming and going, all nice and professional.
JP
0037
2-11-60
01
checked 1/92
BLAHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH. blah blah blah blah bal…
oops>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
again
JP
0039
2-11-60
01
checked 1/92
JP
0041
3-14-60
这是一个解决方案的例子。
1 通过选择 "Line based text" 选项并取消选中 "store blank rows" 复选框,在 Open Refine 中打开您的文本;
2 在项目的单列中,使用文本过滤器来隔离包含单词 "JP";
的行
3 根据过滤后的列新建一列,移至开头;
4 删除第一个JP字样(Transform -> null);
5 在指定 space 作为分隔符的原始列上使用 "join multi-valued cells"。
通过截屏视频,所有这些内容都会更加清晰。
我20分钟前才开始学习openrefine。我有一个文本文件,其中的数据在每个数据块的开头由一致的 header ("JP") 分隔。数据块的行数并不完全相同。我希望原始数据的每一块都在 openrefine 中的一行中。我该怎么做?
编辑:这是一个示例。这是一个相当混乱的文件,但我可以指望每个不同条目开头的 JP..
JP
0034
1-25-60
01
checked 1/92
I am so happy to have taken these. The brown envelopes, blah blah. roll 1: Is a retirement event [EW]
JP
0035
2-1-60
01
checked 1/92
Bill therapy
JP
0036
2-11-60
01
Checked 1/92
Bill: there are many
EW: The bills look good.
I remember Babies used to look like this everyday, with the staff coming and going, all nice and professional.
JP
0037
2-11-60
01
checked 1/92
BLAHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH. blah blah blah blah bal…
oops>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
again
JP
0039
2-11-60
01
checked 1/92
JP
0041
3-14-60
这是一个解决方案的例子。
1 通过选择 "Line based text" 选项并取消选中 "store blank rows" 复选框,在 Open Refine 中打开您的文本;
2 在项目的单列中,使用文本过滤器来隔离包含单词 "JP";
的行3 根据过滤后的列新建一列,移至开头;
4 删除第一个JP字样(Transform -> null);
5 在指定 space 作为分隔符的原始列上使用 "join multi-valued cells"。
通过截屏视频,所有这些内容都会更加清晰。