搜索自定义对象并将其返回到新集合时需要提高性能

Need to improve performance when searching a custom object and returning it to a new collection

结果在这里:

Search Started: 9/20/2020 6:05:39 AM
Search Completed: Took 00:00:00
Collection Created: Took -00:01:18.4322494
DataSource Created: Took 00:00:00

我想做的是在对象集合中搜索任何与搜索词匹配的对象。该集合用作 winforms 应用程序中 datagridview 的绑定数据源。通过 linq 搜索集合后,它 returns 将结果返回给 ObservableCollection,然后将其设置为新的数据源。一切正常,除了 SearchResults = new ObservableCollection<OrderLine>(SearchResultsQuery); 非常慢,正如您从我之前所做的基准测试中看到的那样。

感谢任何帮助!!

产生这些结果的代码在这里:

DateTime startTime = DateTime.Now;
Console.WriteLine($"Search Started: {startTime}");
SearchTerm = SearchTerm.ToUpper();

var SearchResultsQuery = from orderLine in new ObservableCollection<OrderLines.OrderLine>(OrderLineCollection)
                         where ( orderLine.BatchNumber != null && orderLine.BatchNumber.ToString().ToUpper().Contains(SearchTerm) ) ||
                         ( orderLine.BatchStatus != null && orderLine.BatchStatus.ToString().ToUpper().Contains(SearchTerm) ) ||
                         ( orderLine.CustomerItem != null && orderLine.CustomerItem.ToString().ToUpper().Contains(SearchTerm) ) ||
                         ( orderLine.CustomerName != null && orderLine.CustomerName.ToString().ToUpper().Contains(SearchTerm) ) ||
                         ( orderLine.CustomerPurchaseOrder != null && orderLine.CustomerPurchaseOrder.ToString().ToUpper().Contains(SearchTerm) ) ||
                         ( orderLine.FGItem != null && orderLine.FGItem.ToString().ToUpper().Contains(SearchTerm) ) ||
                         ( orderLine.IngItem != null && orderLine.IngItem.ToString().ToUpper().Contains(SearchTerm) ) ||
                         ( orderLine.RawItem != null && orderLine.RawItem.ToString().ToUpper().Contains(SearchTerm) ) ||
                         ( orderLine.ItemDescription != null && orderLine.ItemDescription.ToString().ToUpper().Contains(SearchTerm) ) ||
                         ( orderLine.Machine != null && orderLine.Machine.ToString().ToUpper().Contains(SearchTerm) ) ||
                         ( orderLine.NextPONumber != null && orderLine.NextPONumber.ToString().ToUpper().Contains(SearchTerm) ) ||
                         ( orderLine.Note != null && orderLine.Note.Content.ToString().ToUpper().Contains(SearchTerm) ) ||
                         ( orderLine.OrderNumber != null && orderLine.OrderNumber.ToString().ToUpper().Contains(SearchTerm) ) ||
                         ( orderLine.Status_1 != null && orderLine.Status_1.ToString().ToUpper().Contains(SearchTerm) ) ||
                         ( orderLine.Status_2 != null && orderLine.Status_2.ToString().ToUpper().Contains(SearchTerm) ) ||
                         ( orderLine.Status_3 != null && orderLine.Status_3.ToString().ToUpper().Contains(SearchTerm) ) ||
                         ( orderLine.Status_4 != null && orderLine.Status_4.ToString().ToUpper().Contains(SearchTerm) ) ||
                         ( orderLine.Status_Today != null && orderLine.Status_Today.ToString().ToUpper().Contains(SearchTerm) )
                         select orderLine;

TimeSpan searchTime = startTime - DateTime.Now;
startTime = DateTime.Now;
Console.WriteLine($"Search Completed: Took {searchTime}");

SearchResults = new ObservableCollection<OrderLine>(SearchResultsQuery); //THIS LINE IS SLOW

TimeSpan collectionTime = startTime - DateTime.Now;
startTime = DateTime.Now;
Console.WriteLine($"Collection Created: Took {collectionTime}");

bs.DataSource = SearchResults;

TimeSpan dataSourceTime = startTime - DateTime.Now;
Console.WriteLine($"DataSource Created: Took {dataSourceTime}");

如何提高将 LINQ 结果导入新集合的性能?

需要考虑的一些事项:

永远不要使用 DateTime 来衡量性能。始终使用秒表或 benchmark.net。永远不要测量算法的第一个 运行,因为它会包括编译时间。

另一个建议是使用更多 detailed profiler 可以提供逐行性能报告。

new ObservableCollection(SearchResultsQuery); //THIS LINE IS SLOW

这很慢,因为这是查询的实际行 运行。这没什么异常。

new ObservableCollection<OrderLines.OrderLine>(OrderLineCollection)

您应该可以只搜索 OrderLineCollection。为什么要将所有内容复制到 ObservableCollection?

如果许多属性都是字符串,为什么要 运行宁 .ToString() 它们?

.ToUpper() 效率很低,因为它必须创建一个新字符串,不幸的是 .Contains 没有采用 StringComparison 参数的重载。有人建议使用 .IndexOf,但我测试时这似乎比 .Contains 慢。

一个选项是将所有属性连接到一个大字符串,这样做的缺点是结果可能不同,如果 属性 以“结尾,则搜索“abcd”将为真ab”,一个以“cd”开头。这可能对您的用例很重要。

另一种选择是将所有属性转换为字符串列表作为 pre-process 步骤,因此搜索只会检查列表中的所有项目。这似乎比连接属性慢一点。

以上两者都可以与 .AsParallel() 组合以 运行 多线程查询。

第三个选择是使用像 lucene 这样专门用于快速搜索的东西。

当我做类似的事情时,我在 1000000 个项目上使用原始代码大约需要 700 毫秒。使用字符串连接和 AsParallel 大约需要 15 毫秒(不包括连接字符串)。这对于交互性能应该足够了。如果您有更多项目,您可能需要一些第三方解决方案进行搜索。