替换 .net 词典
Replacement .net Dictionary
给出(简化描述)
我们的一项服务在内存中有很多实例。大约 85% 是独一无二的。
我们需要对这些项目进行非常快的基于键的访问,因为它们在单个堆栈/调用中被经常查询。这个单一的上下文对性能进行了极度优化。
所以我们开始将它们放入字典中。表现还可以。
在这种情况下,尽可能快地访问项目是最重要的事情。保证读时无写操作
问题
与此同时,我们达到了字典可以存储的项目数的限制。
Die Arraydimensionen haben den unterstützten Bereich überschritten.
bei System.Collections.Generic.Dictionary`2.Resize(Int32 newSize, Boolean forceNewHashCodes)
bei System.Collections.Generic.Dictionary`2.Insert(TKey key, TValue value, Boolean add)
转换为 The array dimensions have exceeded the supported range
。
像 Memcached 这样的解决方案在这种特定情况下太慢了。它是封装在单个服务中的一个孤立的非常具体的用例
所以我们正在为这个特定场景寻找字典的替代品。
目前我找不到支持这个的。我错过了什么吗?有人可以指点我吗?
作为替代方案,如果 none 存在,我们正在考虑自己实施一个。
我们考虑了两种可能性。从头开始构建它或包装多个词典。
包装多个字典
搜索项目时,我们可以查看键 HasCode 并将其起始编号用作包装器字典列表的索引。虽然这看起来很容易,但我觉得这很奇怪,这意味着哈希码被计算了两次(一次由我们计算,一次由内部字典计算)(这种情况确实对性能至关重要)。
我知道交换像字典这样的基类型绝对是最后的可能性,我想避免这种情况。但目前看来没有办法让对象更独特或从数据库中获得字典的性能或在其他地方保存性能。
我也知道 "be aware of optimizations" 但较低的性能会严重影响其背后的业务需求。
还没看完你的问题,我就想到了简单的多词典。但是你已经知道这个解决方案了。我假设您确实达到了字典中的最大项目数,而不是任何其他限制。
我会说去吧。我认为您不必担心两次计算哈希值。如果它们的键有点长并且获取哈希确实是一个耗时的操作(我怀疑,但不能确定,因为你没有提到键是什么),你不需要为你的哈希函数使用整个键.只需选择您可以在自己的哈希中处理的任何部分,并根据它分发项目。
您唯一需要确保的是在您的多个词典中均匀分布项目。实现这一目标的难易程度实际上取决于您的密钥是什么。如果它们是完全随机的数字,您可以只使用第一个字节就可以了(除非您需要超过 256 个字典)。如果它们不是随机数,您必须考虑它们域中的分布,并以实现均匀分布目标的方式编写您的第一个哈希函数。
我查看了 .Net Dictionary 的实现,看起来您应该能够在字典中存储 2^32 个值。 (在桶列表旁边,它们本身是链表,有一个存储所有项目的单个数组,可能是为了快速迭代,这可能是限制因素)。
如果您没有添加 2^32 个值,则可能是存储桶中的项目存在限制(它是一个链表,因此可能限制为最大堆栈帧大小)。在那种情况下,您应该仔细检查您的哈希函数是否将项目均匀分布在字典中。有关详细信息,请参阅此答案 What is the best algorithm for an overridden System.Object.GetHashCode?
给出(简化描述)
我们的一项服务在内存中有很多实例。大约 85% 是独一无二的。 我们需要对这些项目进行非常快的基于键的访问,因为它们在单个堆栈/调用中被经常查询。这个单一的上下文对性能进行了极度优化。
所以我们开始将它们放入字典中。表现还可以。
在这种情况下,尽可能快地访问项目是最重要的事情。保证读时无写操作
问题
与此同时,我们达到了字典可以存储的项目数的限制。
Die Arraydimensionen haben den unterstützten Bereich überschritten.
bei System.Collections.Generic.Dictionary`2.Resize(Int32 newSize, Boolean forceNewHashCodes)
bei System.Collections.Generic.Dictionary`2.Insert(TKey key, TValue value, Boolean add)
转换为 The array dimensions have exceeded the supported range
。
像 Memcached 这样的解决方案在这种特定情况下太慢了。它是封装在单个服务中的一个孤立的非常具体的用例
所以我们正在为这个特定场景寻找字典的替代品。
目前我找不到支持这个的。我错过了什么吗?有人可以指点我吗?
作为替代方案,如果 none 存在,我们正在考虑自己实施一个。
我们考虑了两种可能性。从头开始构建它或包装多个词典。
包装多个字典
搜索项目时,我们可以查看键 HasCode 并将其起始编号用作包装器字典列表的索引。虽然这看起来很容易,但我觉得这很奇怪,这意味着哈希码被计算了两次(一次由我们计算,一次由内部字典计算)(这种情况确实对性能至关重要)。
我知道交换像字典这样的基类型绝对是最后的可能性,我想避免这种情况。但目前看来没有办法让对象更独特或从数据库中获得字典的性能或在其他地方保存性能。
我也知道 "be aware of optimizations" 但较低的性能会严重影响其背后的业务需求。
还没看完你的问题,我就想到了简单的多词典。但是你已经知道这个解决方案了。我假设您确实达到了字典中的最大项目数,而不是任何其他限制。
我会说去吧。我认为您不必担心两次计算哈希值。如果它们的键有点长并且获取哈希确实是一个耗时的操作(我怀疑,但不能确定,因为你没有提到键是什么),你不需要为你的哈希函数使用整个键.只需选择您可以在自己的哈希中处理的任何部分,并根据它分发项目。
您唯一需要确保的是在您的多个词典中均匀分布项目。实现这一目标的难易程度实际上取决于您的密钥是什么。如果它们是完全随机的数字,您可以只使用第一个字节就可以了(除非您需要超过 256 个字典)。如果它们不是随机数,您必须考虑它们域中的分布,并以实现均匀分布目标的方式编写您的第一个哈希函数。
我查看了 .Net Dictionary 的实现,看起来您应该能够在字典中存储 2^32 个值。 (在桶列表旁边,它们本身是链表,有一个存储所有项目的单个数组,可能是为了快速迭代,这可能是限制因素)。
如果您没有添加 2^32 个值,则可能是存储桶中的项目存在限制(它是一个链表,因此可能限制为最大堆栈帧大小)。在那种情况下,您应该仔细检查您的哈希函数是否将项目均匀分布在字典中。有关详细信息,请参阅此答案 What is the best algorithm for an overridden System.Object.GetHashCode?