使用 EmEditor 优化列数据中的 Sort/deduplicate 多元素

Optimising Sort/deduplicate multi-elements in column data with EmEditor

在处理大型分隔文件时,目前最简单的方法是 sort/deduplicate 列中的元素(通常元素以分号分隔,但可以是任何字符)似乎是通过 “分列法”document.SplitColumn,再用组合线法document.CombineLines组合起来(sorting/deduplicating根据需要,使用相关的方法参数)。

当文件不是很大时,这工作正常,但我想知道是否有 faster/more 对较大的分隔文件(百万行以上)执行此常见任务的最佳方法,特别是通过 macro/method.

请将 EmEditor 更新到 v20.1.901 或更高版本,并使用此格式:

document.SplitColumn("3",";",eeSplitIntoNone,"A+",eeRemoveDuplicates | eeSortIgnorePrefix | eeSortStable,0);

这个新的 eeSplitIntoNone 类型实际上不会拆分,而只会对元素的重复项进行排序或删除。