在 C# 中优化列表性能
Optimizing list performance in C#
我正在处理一个项目(在 .NET 3.5 中),该项目读取 2 个文件,然后比较它们并找到丢失的对象。
根据这些数据,我需要进一步解析并定位对象位置。我会尝试进一步解释:
我有 2 个列表:
1 list 是服务器上所有文件的非常长的列表,以及它们在服务器或其他服务器上的物理地址,这个文件有超过 10 亿行,并且还在不断增长(我知道有点荒谬)。当前文件大小约为 160MB。
另一个列表是一个报告列表,显示服务器上丢失的文件。与列表 1 相比,此列表很小,通常小于 1MB。
我必须将列表 2 与列表 1 相交并确定丢失的对象所在的位置。列表中的项目如下所示(不幸的是,它是 space 分隔的,而不是 CSV 文档):
filename.extension rev rev# source server:harddriveLocation\|filenameOnServer.extension origin
使用流,我将两个文件读入单独的字符串列表。然后,我采用正则表达式并将列表 2 中的项目解析为包含 filename.extension、rev 和 rev# 的第三个列表。所有这一切都非常有效,它的性能让我很生气。
我希望有一种更有效的方法来做我正在做的事情。
foreach (String item in slMissingObjectReport)
{
if (item.Contains(".ext1") || item.Contains(".ext2") || item.Contains(".ext3"))
{
if (!item.Contains("|"))
{
slMissingObjects.Add(item + "," + slMissingObjectReport[i + 1] + "," + slMissingObjectReport[i + 2]); //object, rev, version
}
}
i++;
}
int j = 1; //debug only
foreach (String item in slMissingObjects)
{
IEnumerable<String> found = Enumerable.Empty<String>();
Stopwatch matchTime = new Stopwatch(); //used for debugging
matchTime.Start(); //start the stop watch
foreach (String items in slAllObjects.Where(s => s.Contains(item.Remove(item.IndexOf(',')))))
{
slFoundInAllObjects.Add(item);
}
matchTime.Stop();
tsStatus.Text = "Missing Object Count: " + slMissingObjects.Count + " | " + "All Objects count: " + slAllObjects.Count + " | Time elapsed: " + (taskTime.ElapsedMilliseconds) * 0.001 + "s | Items left: " + (slMissingObjects.Count - j).ToString();
j++;
}
taskTime.Stop();
lstStatus.Items.Add(("Time to complete all tasks: " + (taskTime.ElapsedMilliseconds) * 0.001) + "s");
这可行,但由于目前我的遗失物品列表中有 1300 件遗失物品,因此平均需要 8 到 12 分钟才能完成。花费时间最长的部分是
foreach (String items in slAllObjects.Where(s => s.Contains(item.Remove(item.IndexOf(',')))))
{
slFoundInAllObjects.Add(item);
}
我只需要指出正确的方向,也许还需要帮助我改进我正在处理的代码。 LINQ 看起来并不是杀手,将其添加到似乎会破坏性能的列表中。
您可以进行的一项改进是使用 AddRange
而不是 Add
。 AddRange
将允许内部列表预先分配添加所需的内存,而不是在 foreach
循环的整个过程中多次分配。
IEnumerable<string> items = slAllObjects.Where(s => s.Contains(item.Remove(item.IndexOf(','));
slFoundInAllObjects.AddRange(items);
其次,您应该避免在 Where
lambda 中使用 item.Remove(item.IndexOf(',')
,因为这会导致它对列表中的每个项目执行一次。该值是静态的,您可以提前完成一次。
var itemWithoutComma = item.Remove(item.IndexOf(','));
IEnumerable<string> items = slAllObjects.Where(s => s.Contains(itemWithoutComma));
slFoundInAllObjects.AddRange(items);
哈希集专为此类任务而设计,您在其中具有唯一值并且需要比较它们。
列表,不是。它们只是任意集合。
我的第一个停靠点是使用 HashSet<> 和它附带的各种交集方法。
第一站,不要使用列表。使用 HashSet 进行更快的插入和比较。
接下来,确定列表是否按预先排序的顺序排列,如果是,那么您可以同时快速读取两个文件,并且只对每个文件进行一次遍历,而不必保留它们完全在记忆中。
如果所有其他方法都失败了,请考虑使用 LINQ 的 Intersects 方法,它的性能可能会比您自己开发的版本好得多。
似乎已经指出了一些瓶颈。
如果我没理解错你是:
- 正在将两个文件读入 2 个列表。 O(K)
- 迭代一个列表 (O(n)) 并在另一个列表中搜索匹配项 (O(m))。
- 正在创建一个包含这些匹配项的新列表。 (O(n))
所以你有一些命令:O(K + m * n * n)
。
瓶颈发生在第 2 步和第 3 步(代码中的内部循环)。
解决方案:
- 你正在搜索的集合(slAllObjects 我认为)应该是你可以快速搜索的东西,所以要么使用哈希集,要么对它进行一次排序,然后使用二进制搜索来查找此集合中的项目。
- 预分配您正在创建的列表。您事先知道大小,因此设置匹配的容量。
如果使用哈希集,此解决方案应将 O(n^2) * O(m)
减少到 O(n) * O(k)
,如果对列表进行排序,则应将 O(n) * log(m)
减少。
除了已经建议的之外,我会考虑使用树。如果我理解正确的话,文件名中有某种层次结构(即:服务器、文件路径、文件名等),对吗?通过使用树,您可以在每个步骤中减少很多搜索 space。
此外,如果在每个节点中使用 Dictionary<String, Node>
,则可以减少搜索时间,考虑到层次结构级别数不变,搜索时间变为 O(1)
。
此外,如果您决定使用数组或数组列表,请避免使用 foreach
并使用 for
,因为它应该更快(没有使用迭代器,因此,至少对于数组列表,应该是更快)。
如果有任何不清楚的地方,请告诉我。
我正在处理一个项目(在 .NET 3.5 中),该项目读取 2 个文件,然后比较它们并找到丢失的对象。
根据这些数据,我需要进一步解析并定位对象位置。我会尝试进一步解释:
我有 2 个列表: 1 list 是服务器上所有文件的非常长的列表,以及它们在服务器或其他服务器上的物理地址,这个文件有超过 10 亿行,并且还在不断增长(我知道有点荒谬)。当前文件大小约为 160MB。 另一个列表是一个报告列表,显示服务器上丢失的文件。与列表 1 相比,此列表很小,通常小于 1MB。
我必须将列表 2 与列表 1 相交并确定丢失的对象所在的位置。列表中的项目如下所示(不幸的是,它是 space 分隔的,而不是 CSV 文档): filename.extension rev rev# source server:harddriveLocation\|filenameOnServer.extension origin
使用流,我将两个文件读入单独的字符串列表。然后,我采用正则表达式并将列表 2 中的项目解析为包含 filename.extension、rev 和 rev# 的第三个列表。所有这一切都非常有效,它的性能让我很生气。
我希望有一种更有效的方法来做我正在做的事情。
foreach (String item in slMissingObjectReport)
{
if (item.Contains(".ext1") || item.Contains(".ext2") || item.Contains(".ext3"))
{
if (!item.Contains("|"))
{
slMissingObjects.Add(item + "," + slMissingObjectReport[i + 1] + "," + slMissingObjectReport[i + 2]); //object, rev, version
}
}
i++;
}
int j = 1; //debug only
foreach (String item in slMissingObjects)
{
IEnumerable<String> found = Enumerable.Empty<String>();
Stopwatch matchTime = new Stopwatch(); //used for debugging
matchTime.Start(); //start the stop watch
foreach (String items in slAllObjects.Where(s => s.Contains(item.Remove(item.IndexOf(',')))))
{
slFoundInAllObjects.Add(item);
}
matchTime.Stop();
tsStatus.Text = "Missing Object Count: " + slMissingObjects.Count + " | " + "All Objects count: " + slAllObjects.Count + " | Time elapsed: " + (taskTime.ElapsedMilliseconds) * 0.001 + "s | Items left: " + (slMissingObjects.Count - j).ToString();
j++;
}
taskTime.Stop();
lstStatus.Items.Add(("Time to complete all tasks: " + (taskTime.ElapsedMilliseconds) * 0.001) + "s");
这可行,但由于目前我的遗失物品列表中有 1300 件遗失物品,因此平均需要 8 到 12 分钟才能完成。花费时间最长的部分是
foreach (String items in slAllObjects.Where(s => s.Contains(item.Remove(item.IndexOf(',')))))
{
slFoundInAllObjects.Add(item);
}
我只需要指出正确的方向,也许还需要帮助我改进我正在处理的代码。 LINQ 看起来并不是杀手,将其添加到似乎会破坏性能的列表中。
您可以进行的一项改进是使用 AddRange
而不是 Add
。 AddRange
将允许内部列表预先分配添加所需的内存,而不是在 foreach
循环的整个过程中多次分配。
IEnumerable<string> items = slAllObjects.Where(s => s.Contains(item.Remove(item.IndexOf(','));
slFoundInAllObjects.AddRange(items);
其次,您应该避免在 Where
lambda 中使用 item.Remove(item.IndexOf(',')
,因为这会导致它对列表中的每个项目执行一次。该值是静态的,您可以提前完成一次。
var itemWithoutComma = item.Remove(item.IndexOf(','));
IEnumerable<string> items = slAllObjects.Where(s => s.Contains(itemWithoutComma));
slFoundInAllObjects.AddRange(items);
哈希集专为此类任务而设计,您在其中具有唯一值并且需要比较它们。
列表,不是。它们只是任意集合。
我的第一个停靠点是使用 HashSet<> 和它附带的各种交集方法。
第一站,不要使用列表。使用 HashSet 进行更快的插入和比较。
接下来,确定列表是否按预先排序的顺序排列,如果是,那么您可以同时快速读取两个文件,并且只对每个文件进行一次遍历,而不必保留它们完全在记忆中。
如果所有其他方法都失败了,请考虑使用 LINQ 的 Intersects 方法,它的性能可能会比您自己开发的版本好得多。
似乎已经指出了一些瓶颈。
如果我没理解错你是:
- 正在将两个文件读入 2 个列表。 O(K)
- 迭代一个列表 (O(n)) 并在另一个列表中搜索匹配项 (O(m))。
- 正在创建一个包含这些匹配项的新列表。 (O(n))
所以你有一些命令:O(K + m * n * n)
。
瓶颈发生在第 2 步和第 3 步(代码中的内部循环)。
解决方案:
- 你正在搜索的集合(slAllObjects 我认为)应该是你可以快速搜索的东西,所以要么使用哈希集,要么对它进行一次排序,然后使用二进制搜索来查找此集合中的项目。
- 预分配您正在创建的列表。您事先知道大小,因此设置匹配的容量。
如果使用哈希集,此解决方案应将 O(n^2) * O(m)
减少到 O(n) * O(k)
,如果对列表进行排序,则应将 O(n) * log(m)
减少。
除了已经建议的之外,我会考虑使用树。如果我理解正确的话,文件名中有某种层次结构(即:服务器、文件路径、文件名等),对吗?通过使用树,您可以在每个步骤中减少很多搜索 space。
此外,如果在每个节点中使用 Dictionary<String, Node>
,则可以减少搜索时间,考虑到层次结构级别数不变,搜索时间变为 O(1)
。
此外,如果您决定使用数组或数组列表,请避免使用 foreach
并使用 for
,因为它应该更快(没有使用迭代器,因此,至少对于数组列表,应该是更快)。
如果有任何不清楚的地方,请告诉我。