如何使用多线程优化大文件中的单词和字符计数?

How to optimize the counting of words and characters in a huge file using multithreading?

我有一个大约 1 GB 的非常大的文本文件。

我需要计算字数和字符数(非space个字符)。

我写了下面的代码。

string fileName = "abc.txt";
long words = 0;
long characters = 0;
if (File.Exists(fileName))
{
    using (StreamReader sr = new StreamReader(fileName))
    {
        string[] fields = null;
        string text = sr.ReadToEnd();
        fields = text.Split(' ', StringSplitOptions.RemoveEmptyEntries);
        foreach (string str in fields)
        {
            characters += str.Length;
        }
        words += fields.LongLength;
    }

    Console.WriteLine("The word count is {0} and character count is {1}", words, characters);
}

有没有什么方法可以使用线程让它更快,有人建议我使用线程这样它会更快?

我在我的代码中发现了一个问题,如果单词或字符的数量大于 long 最大值,该问题将失败。

我写这段代码时假定只有英文字符,但也可以有非英文字符。

特别想找跟帖相关的建议。

这是一个根本不需要多线程的问题!为什么?因为CPU远比磁盘IO快!因此,即使在单线程应用程序中,程序也会等待从磁盘读取数据。使用更多线程将意味着更多等待。 你想要的是异步文件IO。所以,这样的设计:-

main
  asynchronously read a chunk of the file (one MB perhaps), calling the callback on completion
  while not at end of file
    wait for asynchronous read to complete
    process chunk of data
  end
end

asynchronous read completion callback
  flag data available to process
  asynchronously read next chunk of the file, calling the callback on completion
end

以下是如何使用并行性有效地解决对巨大文本文件的非空白字符进行计数的问题。首先,我们需要一种以流方式读取字符块的方法。本机 File.ReadLines method doesn't cut it, since the file is susceptible of having a single line. Below is a method that uses the StreamReader.ReadBlock 方法获取特定大小的字符块,并将它们 return 作为 IEnumerable<char[]>.

public static IEnumerable<char[]> ReadCharBlocks(String path, int blockSize)
{
    using (var reader = new StreamReader(path))
    {
        while (true)
        {
            var block = new char[blockSize];
            var count = reader.ReadBlock(block, 0, block.Length);
            if (count == 0) break;
            if (count < block.Length) Array.Resize(ref block, count);
            yield return block;
        }
    }
}

有了这个方法,就可以很容易地使用 PLINQ:

并行化字符块的解析
public static long GetNonWhiteSpaceCharsCount(string filePath)
{
    return Partitioner
        .Create(ReadCharBlocks(filePath, 10000), EnumerablePartitionerOptions.NoBuffering)
        .AsParallel()
        .WithDegreeOfParallelism(Environment.ProcessorCount)
        .Select(chars => chars
            .Where(c => !Char.IsWhiteSpace(c) && !Char.IsHighSurrogate(c))
            .LongCount())
        .Sum();
}

上面的情况是多个线程在读取文件和处理块,但是读取文件是同步的。通过调用 IEnumerator<char[]>.MoveNext 方法,一次只允许一个线程获取下一个块。这种行为不像纯生产者-消费者设置,其中一个线程专用于读取文件,但实际上性能特征应该是相同的。那是因为这个特定的工作负载具有低可变性。解析每个字符块应该花费大致相同的时间。所以当一个线程完成一个块的读取时,另一个线程应该在读取下一个块的等待列表中,导致组合读取操作几乎是连续的。

使用NoBuffering配置的Partitioner,使每个线程一次获取一个block。如果没有它,PLINQ 将使用块分区,这意味着每个线程一次会逐渐请求越来越多的元素。块分区不适合这种情况,因为仅仅枚举的行为是昂贵的。

工作线程由 ThreadPool 提供。当前线程也参与处理。所以在上面的例子中,假设当前线程是应用程序的主线程,那么ThreadPool提供的线程数就是Environment.ProcessorCount - 1.

您可能需要根据硬件的能力调整 blockSize(越大越好)和 MaxDegreeOfParallelism 来微调操作。 Environment.ProcessorCount 可能太多了,2 可能就足够了。

计算单词的问题要困难得多,因为一个单词可能跨越多个字符块。整个 1 GB 的文件甚至可能只包含一个单词。您可以尝试通过研究 source code of the StreamReader.ReadLine 方法来解决此问题,该方法必须处理同类问题。提示:如果一个块以非空白字符结尾,而下一个块也以非空白字符开头,那么肯定有一个单词被分成两半。您可以跟踪拆分成两半的单词数,并最终从单词总数中减去这个数字。

您可能会得到文件的开头长度。让它成为“S”(字节)。 然后,让我们取一些常数“C”。

执行 C 线程,让每个线程处理 S/C 长度的文本。 您可以一次读取所有文件并加载到您的内存中(如果您有足够的 RAM),或者您可以让每个线程读取文件的相关部分。

第一个线程将处理字节 0 到 S/C。 第二个线程将处理字节 S/C 到 2S/C。 等等。

所有线程完成后,汇总计数。

怎么样?