需要有效扫描大型 excel 文件中的低端 ascii 控制字符

Question

我正在研究 ETL 验证程序，以在处理之前扫描无效的 ascii 字符。在这种情况下，无效被定义为 0-31 范围内的 ascii 字符。

在 C# ETL 验证服务中，我使用 OfficeOpenXml 检查 excel 文件的内容。

有谁知道除了循环每个工作表、每一列和每一行之外还有更有效的搜索内容的方法吗？文件可能非常大，验证应该尽可能快。

是否可以访问原始 xml 缓冲区？解压缩 xml 文件并扫描那里的内容会更快吗？

Answer 1

问题是，现在的瓶颈在哪里。我的教唆者告诉我应该是磁盘。您正在处理文件，因此它通常是磁盘。如果是这样的话，除了将每个单元格只加载一次内存之外，没有什么可以加速的。

然而，您正在对字符串进行相当深入的处理，因为您必须遍历每个字符。因此可能需要相关的时间花在这上面。很可能不是瓶颈，而是可以作为成本否定的东西。

您可以进行一些异步处理，在您处理这个的同时让下一个 cell/row 在后台加载。 Directory.EnumerateFiles() vs Directory.GetFiles 这样的方法可能有效：https://docs.microsoft.com/en-us/dotnet/api/system.io.directory.enumeratefiles

Row 似乎具有 GetEnumerator 功能。但它可能只是为需要 Enuemrators 而实际上不包括 defered/background 加载的代码获取枚举器（即像为 foreach 循环隐式创建的枚举器）。

Answer 2

我编写了测试工具并使用 string[] 和数据结构列表以及以下迭代器提出了 14 种变体：

1 :
foreach (char c in s.ToCharArray())

2 :

byte[] ASCIIValues = Encoding.ASCII.GetBytes(s);
foreach (byte code in ASCIIValues)

3 :

Regex rx = new Regex(@"/[^ -~]/", RegexOptions.Compiled | RegexOptions.IgnoreCase);
MatchCollection matches = rx.Matches(s);

4 :

for(int x=0; x < s.Length; x++)

Need to efficiently scans for low end ascii control characters on large excel files