GAE 数据存储读取性能
GAE Datastore read performance
我们需要定期处理数以千计的时间序列实体,并且我们在从数据存储区读取那么多数据时遇到性能问题,processins 的计算量很小,不会引起问题。我们创建了一个模拟真实服务器流量的综合测试,我们在其中测试了 25k 个实体。
我们使用 Java 运行时和 Objectify(5.1.1 和 5.1.8)来访问数据存储。
实体
@Entity(name="logs")
@Cache
public class Log {
@Id
public Long id;
@Index
public Ref<User> user;
public String deviceId;
public String nonce;
public String version;
public String data;
@Index
public Date timestamp;
@OnSave
private void prePersist() {
if (timestamp == null) {
timestamp = new Date();
}
}
}
查询
query = ofy().load().type(Log.class).
filter("timestamp >", startDate).
order("timestamp").
limit(25000);
我们尝试了不同的实体加载方式。首先 query.list()
然后 ofy().load().keys(query.keys())
所以查找将通过 GAE 的内存缓存,但结果是相同的。检索 25k 个实体大约需要 8 秒(通过 System.nanoTime()
测量)。在 query.list()
的情况下,该调用本身很快但遍历实体很慢。看起来实体是在那一刻从数据存储中检索到的,而不是在 query.list()
中。所有这些都是 F4 前端实例上的一个简单的 servlet,具有专用的内存缓存,没有任务。
读取 25k 个实体只是一个测试,目的是获取有关我们的服务器实现性能的一些数字。在现实世界中,我们希望一次读取多达 500k 个实体,这是否可以使用 GAE 的数据存储和专用内存缓存在 30-60 秒内完成?在 2 年内它可能是数百万个实体。
另一个问题是 RAM 有限,但这可以通过 GAE 的托管 VM 或 GCE 解决。
问题是从 Datastore 检索时间序列实体的最快方法是什么 + 使用 Objectify 的专用内存缓存。在我们的案例中,内存缓存似乎对 Objectify 没有帮助。 memcache 内部有数以万计的 Objectify 项目,但加载时间与空 memcache 相同。 Objectify's/Datastore的最佳实践是批量获取操作,如何实现? Objectify 是在后台使用我们的实体和查询执行此操作,还是我们必须更改某些内容?底层Datastore API 能否帮助我们提高读取性能?谢谢。
编辑
我们已经着手合并日志,因此每个日志实体都将包含多个当前日志。这将为我们提供大约 10 倍的簧片改进,这对于数十万条记录来说仍然不够。
此解决方案不太可能按您希望的方式扩展。
@Cache 实体的查询默认为 "hybrid" 仅键查询(非常快),然后是批量获取(相对较慢)。如果缓存是温暖的,这可以很好地执行,但可能不会达到您正在谈论的规模。最终,即使使用专用内存缓存,缓存也会被重置——然后您的操作可能会超时并失败几次,直到缓存再次预热。
您可以禁用此混合功能:ofy().load().hybrid(false)
或仅通过删除 @Cache 注释。使用冷缓存的常规查询将执行得更好。您也可以尝试将 chunk()
大小更改为更大的值。默认值很小,比如 20。
托管 VM 通过标准 API 访问数据存储(目前)比从 Classic GAE 中访问要慢得多。这可能会导致这种规模的问题。
数据存储通常不适合涉及大量实体的批量读取和写入的操作。为此,它也往往非常昂贵。您可能会考虑使用数据存储作为可靠的 "master" 复制和索引其他使用聚集索引的从属数据库中的数据。或者,根据您的持久性要求,仅使用辅助数据存储作为主副本。
我们需要定期处理数以千计的时间序列实体,并且我们在从数据存储区读取那么多数据时遇到性能问题,processins 的计算量很小,不会引起问题。我们创建了一个模拟真实服务器流量的综合测试,我们在其中测试了 25k 个实体。
我们使用 Java 运行时和 Objectify(5.1.1 和 5.1.8)来访问数据存储。
实体
@Entity(name="logs")
@Cache
public class Log {
@Id
public Long id;
@Index
public Ref<User> user;
public String deviceId;
public String nonce;
public String version;
public String data;
@Index
public Date timestamp;
@OnSave
private void prePersist() {
if (timestamp == null) {
timestamp = new Date();
}
}
}
查询
query = ofy().load().type(Log.class).
filter("timestamp >", startDate).
order("timestamp").
limit(25000);
我们尝试了不同的实体加载方式。首先 query.list()
然后 ofy().load().keys(query.keys())
所以查找将通过 GAE 的内存缓存,但结果是相同的。检索 25k 个实体大约需要 8 秒(通过 System.nanoTime()
测量)。在 query.list()
的情况下,该调用本身很快但遍历实体很慢。看起来实体是在那一刻从数据存储中检索到的,而不是在 query.list()
中。所有这些都是 F4 前端实例上的一个简单的 servlet,具有专用的内存缓存,没有任务。
读取 25k 个实体只是一个测试,目的是获取有关我们的服务器实现性能的一些数字。在现实世界中,我们希望一次读取多达 500k 个实体,这是否可以使用 GAE 的数据存储和专用内存缓存在 30-60 秒内完成?在 2 年内它可能是数百万个实体。
另一个问题是 RAM 有限,但这可以通过 GAE 的托管 VM 或 GCE 解决。
问题是从 Datastore 检索时间序列实体的最快方法是什么 + 使用 Objectify 的专用内存缓存。在我们的案例中,内存缓存似乎对 Objectify 没有帮助。 memcache 内部有数以万计的 Objectify 项目,但加载时间与空 memcache 相同。 Objectify's/Datastore的最佳实践是批量获取操作,如何实现? Objectify 是在后台使用我们的实体和查询执行此操作,还是我们必须更改某些内容?底层Datastore API 能否帮助我们提高读取性能?谢谢。
编辑 我们已经着手合并日志,因此每个日志实体都将包含多个当前日志。这将为我们提供大约 10 倍的簧片改进,这对于数十万条记录来说仍然不够。
此解决方案不太可能按您希望的方式扩展。
@Cache 实体的查询默认为 "hybrid" 仅键查询(非常快),然后是批量获取(相对较慢)。如果缓存是温暖的,这可以很好地执行,但可能不会达到您正在谈论的规模。最终,即使使用专用内存缓存,缓存也会被重置——然后您的操作可能会超时并失败几次,直到缓存再次预热。
您可以禁用此混合功能:ofy().load().hybrid(false)
或仅通过删除 @Cache 注释。使用冷缓存的常规查询将执行得更好。您也可以尝试将 chunk()
大小更改为更大的值。默认值很小,比如 20。
托管 VM 通过标准 API 访问数据存储(目前)比从 Classic GAE 中访问要慢得多。这可能会导致这种规模的问题。
数据存储通常不适合涉及大量实体的批量读取和写入的操作。为此,它也往往非常昂贵。您可能会考虑使用数据存储作为可靠的 "master" 复制和索引其他使用聚集索引的从属数据库中的数据。或者,根据您的持久性要求,仅使用辅助数据存储作为主副本。