从行分隔文件制作列

making columns from a line separated file

我20分钟前才开始学习openrefine。我有一个文本文件,其中的数据在每个数据块的开头由一致的 header ("JP") 分隔。数据块的行数并不完全相同。我希望原始数据的每一块都在 openrefine 中的一行中。我该怎么做?

编辑:这是一个示例。这是一个相当混乱的文件,但我可以指望每个不同条目开头的 JP..

JP  
0034  
1-25-60  
01  
checked 1/92  

I am so happy to have taken these. The brown envelopes, blah blah. roll 1: Is a retirement event [EW]  
JP  
0035  
2-1-60  
01  
checked 1/92  

Bill therapy  

JP  
0036  
2-11-60  
01  
Checked 1/92  

Bill: there are many  

EW: The bills look good.  

I remember Babies used to look like this everyday, with the staff coming and going, all nice and professional.  
JP  
0037  
2-11-60  
01  

checked 1/92  
BLAHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH. blah blah blah blah bal… 
 oops>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>  

again  

JP  
0039  
2-11-60  
01  
checked 1/92  

JP  
0041  
3-14-60  

这是一个解决方案的例子。

1 通过选择 "Line based text" 选项并取消选中 "store blank rows" 复选框,在 Open Refine 中打开您的文本;

2 在项目的单列中,使用文本过滤器来隔离包含单词 "JP";

的行

3 根据过滤后的列新建一列,移至开头;

4 删除第一个JP字样(Transform -> null);

5 在指定 space 作为分隔符的原始列上使用 "join multi-valued cells"。

通过截屏视频,所有这些内容都会更加清晰。