搜索自定义对象并将其返回到新集合时需要提高性能
Need to improve performance when searching a custom object and returning it to a new collection
结果在这里:
Search Started: 9/20/2020 6:05:39 AM
Search Completed: Took 00:00:00
Collection Created: Took -00:01:18.4322494
DataSource Created: Took 00:00:00
我想做的是在对象集合中搜索任何与搜索词匹配的对象。该集合用作 winforms 应用程序中 datagridview 的绑定数据源。通过 linq 搜索集合后,它 returns 将结果返回给 ObservableCollection,然后将其设置为新的数据源。一切正常,除了 SearchResults = new ObservableCollection<OrderLine>(SearchResultsQuery);
非常慢,正如您从我之前所做的基准测试中看到的那样。
感谢任何帮助!!
产生这些结果的代码在这里:
DateTime startTime = DateTime.Now;
Console.WriteLine($"Search Started: {startTime}");
SearchTerm = SearchTerm.ToUpper();
var SearchResultsQuery = from orderLine in new ObservableCollection<OrderLines.OrderLine>(OrderLineCollection)
where ( orderLine.BatchNumber != null && orderLine.BatchNumber.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.BatchStatus != null && orderLine.BatchStatus.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.CustomerItem != null && orderLine.CustomerItem.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.CustomerName != null && orderLine.CustomerName.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.CustomerPurchaseOrder != null && orderLine.CustomerPurchaseOrder.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.FGItem != null && orderLine.FGItem.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.IngItem != null && orderLine.IngItem.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.RawItem != null && orderLine.RawItem.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.ItemDescription != null && orderLine.ItemDescription.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.Machine != null && orderLine.Machine.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.NextPONumber != null && orderLine.NextPONumber.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.Note != null && orderLine.Note.Content.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.OrderNumber != null && orderLine.OrderNumber.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.Status_1 != null && orderLine.Status_1.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.Status_2 != null && orderLine.Status_2.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.Status_3 != null && orderLine.Status_3.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.Status_4 != null && orderLine.Status_4.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.Status_Today != null && orderLine.Status_Today.ToString().ToUpper().Contains(SearchTerm) )
select orderLine;
TimeSpan searchTime = startTime - DateTime.Now;
startTime = DateTime.Now;
Console.WriteLine($"Search Completed: Took {searchTime}");
SearchResults = new ObservableCollection<OrderLine>(SearchResultsQuery); //THIS LINE IS SLOW
TimeSpan collectionTime = startTime - DateTime.Now;
startTime = DateTime.Now;
Console.WriteLine($"Collection Created: Took {collectionTime}");
bs.DataSource = SearchResults;
TimeSpan dataSourceTime = startTime - DateTime.Now;
Console.WriteLine($"DataSource Created: Took {dataSourceTime}");
如何提高将 LINQ 结果导入新集合的性能?
需要考虑的一些事项:
永远不要使用 DateTime
来衡量性能。始终使用秒表或 benchmark.net。永远不要测量算法的第一个 运行,因为它会包括编译时间。
另一个建议是使用更多 detailed profiler 可以提供逐行性能报告。
new ObservableCollection(SearchResultsQuery); //THIS LINE IS SLOW
这很慢,因为这是查询的实际行 运行。这没什么异常。
new ObservableCollection<OrderLines.OrderLine>(OrderLineCollection)
您应该可以只搜索 OrderLineCollection
。为什么要将所有内容复制到 ObservableCollection
?
如果许多属性都是字符串,为什么要 运行宁 .ToString()
它们?
.ToUpper()
效率很低,因为它必须创建一个新字符串,不幸的是 .Contains
没有采用 StringComparison
参数的重载。有人建议使用 .IndexOf,但我测试时这似乎比 .Contains
慢。
一个选项是将所有属性连接到一个大字符串,这样做的缺点是结果可能不同,如果 属性 以“结尾,则搜索“abcd”将为真ab”,一个以“cd”开头。这可能对您的用例很重要。
另一种选择是将所有属性转换为字符串列表作为 pre-process 步骤,因此搜索只会检查列表中的所有项目。这似乎比连接属性慢一点。
以上两者都可以与 .AsParallel()
组合以 运行 多线程查询。
第三个选择是使用像 lucene 这样专门用于快速搜索的东西。
当我做类似的事情时,我在 1000000 个项目上使用原始代码大约需要 700 毫秒。使用字符串连接和 AsParallel 大约需要 15 毫秒(不包括连接字符串)。这对于交互性能应该足够了。如果您有更多项目,您可能需要一些第三方解决方案进行搜索。
结果在这里:
Search Started: 9/20/2020 6:05:39 AM
Search Completed: Took 00:00:00
Collection Created: Took -00:01:18.4322494
DataSource Created: Took 00:00:00
我想做的是在对象集合中搜索任何与搜索词匹配的对象。该集合用作 winforms 应用程序中 datagridview 的绑定数据源。通过 linq 搜索集合后,它 returns 将结果返回给 ObservableCollection,然后将其设置为新的数据源。一切正常,除了 SearchResults = new ObservableCollection<OrderLine>(SearchResultsQuery);
非常慢,正如您从我之前所做的基准测试中看到的那样。
感谢任何帮助!!
产生这些结果的代码在这里:
DateTime startTime = DateTime.Now;
Console.WriteLine($"Search Started: {startTime}");
SearchTerm = SearchTerm.ToUpper();
var SearchResultsQuery = from orderLine in new ObservableCollection<OrderLines.OrderLine>(OrderLineCollection)
where ( orderLine.BatchNumber != null && orderLine.BatchNumber.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.BatchStatus != null && orderLine.BatchStatus.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.CustomerItem != null && orderLine.CustomerItem.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.CustomerName != null && orderLine.CustomerName.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.CustomerPurchaseOrder != null && orderLine.CustomerPurchaseOrder.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.FGItem != null && orderLine.FGItem.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.IngItem != null && orderLine.IngItem.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.RawItem != null && orderLine.RawItem.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.ItemDescription != null && orderLine.ItemDescription.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.Machine != null && orderLine.Machine.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.NextPONumber != null && orderLine.NextPONumber.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.Note != null && orderLine.Note.Content.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.OrderNumber != null && orderLine.OrderNumber.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.Status_1 != null && orderLine.Status_1.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.Status_2 != null && orderLine.Status_2.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.Status_3 != null && orderLine.Status_3.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.Status_4 != null && orderLine.Status_4.ToString().ToUpper().Contains(SearchTerm) ) ||
( orderLine.Status_Today != null && orderLine.Status_Today.ToString().ToUpper().Contains(SearchTerm) )
select orderLine;
TimeSpan searchTime = startTime - DateTime.Now;
startTime = DateTime.Now;
Console.WriteLine($"Search Completed: Took {searchTime}");
SearchResults = new ObservableCollection<OrderLine>(SearchResultsQuery); //THIS LINE IS SLOW
TimeSpan collectionTime = startTime - DateTime.Now;
startTime = DateTime.Now;
Console.WriteLine($"Collection Created: Took {collectionTime}");
bs.DataSource = SearchResults;
TimeSpan dataSourceTime = startTime - DateTime.Now;
Console.WriteLine($"DataSource Created: Took {dataSourceTime}");
如何提高将 LINQ 结果导入新集合的性能?
需要考虑的一些事项:
永远不要使用 DateTime
来衡量性能。始终使用秒表或 benchmark.net。永远不要测量算法的第一个 运行,因为它会包括编译时间。
另一个建议是使用更多 detailed profiler 可以提供逐行性能报告。
new ObservableCollection(SearchResultsQuery); //THIS LINE IS SLOW
这很慢,因为这是查询的实际行 运行。这没什么异常。
new ObservableCollection<OrderLines.OrderLine>(OrderLineCollection)
您应该可以只搜索 OrderLineCollection
。为什么要将所有内容复制到 ObservableCollection
?
如果许多属性都是字符串,为什么要 运行宁 .ToString()
它们?
.ToUpper()
效率很低,因为它必须创建一个新字符串,不幸的是 .Contains
没有采用 StringComparison
参数的重载。有人建议使用 .IndexOf,但我测试时这似乎比 .Contains
慢。
一个选项是将所有属性连接到一个大字符串,这样做的缺点是结果可能不同,如果 属性 以“结尾,则搜索“abcd”将为真ab”,一个以“cd”开头。这可能对您的用例很重要。
另一种选择是将所有属性转换为字符串列表作为 pre-process 步骤,因此搜索只会检查列表中的所有项目。这似乎比连接属性慢一点。
以上两者都可以与 .AsParallel()
组合以 运行 多线程查询。
第三个选择是使用像 lucene 这样专门用于快速搜索的东西。
当我做类似的事情时,我在 1000000 个项目上使用原始代码大约需要 700 毫秒。使用字符串连接和 AsParallel 大约需要 15 毫秒(不包括连接字符串)。这对于交互性能应该足够了。如果您有更多项目,您可能需要一些第三方解决方案进行搜索。