查询包含集合(集合)的大行时,Cassandra 出现内存不足错误
Out of memory error in Cassandra when querying big rows containing a collection (set)
我正在使用 Cassandra 2.0.8,我有一个 cql3 table 定义如下:
CREATE TABLE search_scf_tdr (
fieldname text,
fieldvalue text,
scalability int,
timestamptdr bigint,
tdrkeys set<blob>,
PRIMARY KEY ((fieldname, fieldvalue, scalability), timestamptdr)
)
我为此密钥空间使用每个 DC 2 的复制因子。
我通过使用这样的更新将项目一个一个地添加到 tdrkeys 集合来插入此 table:
UPDATE search_scf_tdr SET tdrkeys = tdrkeys + "new value" WHERE "all primary key fields";
tdrkeys
中的每个元素都是84字节(固定大小)。
在此 table 中查询时,我使用查询一次检索了大约 160 行(使用 timestamptdr
和 scalability
的范围以及 fieldname
和 fieldname
的固定值fieldvalue
)。 tdrkeys
集合中的行包含数千个元素。
我有一个由 42 个节点组成的集群,分为两个数据中心。
我有单独的服务器使用 datastax java 驱动程序 2.0.9.2 运行 每个数据中心共有 24 个线程调用此查询(在每个查询之间对结果执行许多其他操作),一致性级别为 ONE:
SELECT tdrkeys FROM search_scf_tdr WHERE fieldname='timestamp' and fieldvalue='' and scalability IN (0,1,2,3,4,5,6,7,8,9,10) and timestamptdr >= begin and timestamptdr < end;
每个 Cassandra 节点有 8 Gb 的 Java 堆和 16 Gb 的物理内存。我们已经尽可能多地调整了 cassandra.yaml 文件和 JVM 参数,但仍然遇到内存不足的问题。
我们遇到内存不足错误的堆转储显示超过 6 Gb 的堆被线程占用(在 200 到 300 之间)持有许多实例 org.apache.cassandra.io.sstable.IndexHelper$IndexInfo 包含 2 HeapByteBuffer 包含 84数据字节。
Cassandra system.log 显示如下错误:
ERROR [Thread-388] 2015-05-18 12:11:10,147 CassandraDaemon.java (line 199) Exception in thread Thread[Thread-388,5,main]
java.lang.OutOfMemoryError: Java heap space
ERROR [ReadStage:321] 2015-05-18 12:11:10,147 CassandraDaemon.java (line 199) Exception in thread Thread[ReadStage:321,5,main]
java.lang.OutOfMemoryError: Java heap space
at java.nio.HeapByteBuffer.<init>(HeapByteBuffer.java:57)
at java.nio.ByteBuffer.allocate(ByteBuffer.java:331)
at org.apache.cassandra.io.util.MappedFileDataInput.readBytes(MappedFileDataInput.java:146)
at org.apache.cassandra.utils.ByteBufferUtil.read(ByteBufferUtil.java:392)
at org.apache.cassandra.utils.ByteBufferUtil.readWithShortLength(ByteBufferUtil.java:371)
at org.apache.cassandra.io.sstable.IndexHelper$IndexInfo.deserialize(IndexHelper.java:187)
at org.apache.cassandra.db.RowIndexEntry$Serializer.deserialize(RowIndexEntry.java:122)
at org.apache.cassandra.io.sstable.SSTableReader.getPosition(SSTableReader.java:970)
at org.apache.cassandra.io.sstable.SSTableReader.getPosition(SSTableReader.java:871)
at org.apache.cassandra.db.columniterator.SSTableSliceIterator.<init>(SSTableSliceIterator.java:41)
at org.apache.cassandra.db.filter.SliceQueryFilter.getSSTableColumnIterator(SliceQueryFilter.java:167)
at org.apache.cassandra.db.filter.QueryFilter.getSSTableColumnIterator(QueryFilter.java:62)
at org.apache.cassandra.db.CollationController.collectAllData(CollationController.java:250)
at org.apache.cassandra.db.CollationController.getTopLevelColumns(CollationController.java:53)
at org.apache.cassandra.db.ColumnFamilyStore.getTopLevelColumns(ColumnFamilyStore.java:1547)
at org.apache.cassandra.db.ColumnFamilyStore.getColumnFamily(ColumnFamilyStore.java:1376)
at org.apache.cassandra.db.Keyspace.getRow(Keyspace.java:327)
at org.apache.cassandra.db.SliceFromReadCommand.getRow(SliceFromReadCommand.java:65)
at org.apache.cassandra.db.ReadVerbHandler.doVerb(ReadVerbHandler.java:47)
at org.apache.cassandra.net.MessageDeliveryTask.run(MessageDeliveryTask.java:60)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
at java.lang.Thread.run(Thread.java:724)
您正在对多个分区使用 "IN" 查询,因为可伸缩性是分区键的一部分。这导致 cassandra 跨多个节点协调查询。有关更多详细信息,请参阅 this.
解决方案是 运行 对可伸缩性中的每个值进行单独查询,然后手动合并结果或不使其成为分区键的一部分,即。 PRIMARY KEY ((fieldname, fieldvalue), scalability, timestamptdr)
如果可能的话。
我正在使用 Cassandra 2.0.8,我有一个 cql3 table 定义如下:
CREATE TABLE search_scf_tdr (
fieldname text,
fieldvalue text,
scalability int,
timestamptdr bigint,
tdrkeys set<blob>,
PRIMARY KEY ((fieldname, fieldvalue, scalability), timestamptdr)
)
我为此密钥空间使用每个 DC 2 的复制因子。 我通过使用这样的更新将项目一个一个地添加到 tdrkeys 集合来插入此 table:
UPDATE search_scf_tdr SET tdrkeys = tdrkeys + "new value" WHERE "all primary key fields";
tdrkeys
中的每个元素都是84字节(固定大小)。
在此 table 中查询时,我使用查询一次检索了大约 160 行(使用 timestamptdr
和 scalability
的范围以及 fieldname
和 fieldname
的固定值fieldvalue
)。 tdrkeys
集合中的行包含数千个元素。
我有一个由 42 个节点组成的集群,分为两个数据中心。 我有单独的服务器使用 datastax java 驱动程序 2.0.9.2 运行 每个数据中心共有 24 个线程调用此查询(在每个查询之间对结果执行许多其他操作),一致性级别为 ONE:
SELECT tdrkeys FROM search_scf_tdr WHERE fieldname='timestamp' and fieldvalue='' and scalability IN (0,1,2,3,4,5,6,7,8,9,10) and timestamptdr >= begin and timestamptdr < end;
每个 Cassandra 节点有 8 Gb 的 Java 堆和 16 Gb 的物理内存。我们已经尽可能多地调整了 cassandra.yaml 文件和 JVM 参数,但仍然遇到内存不足的问题。
我们遇到内存不足错误的堆转储显示超过 6 Gb 的堆被线程占用(在 200 到 300 之间)持有许多实例 org.apache.cassandra.io.sstable.IndexHelper$IndexInfo 包含 2 HeapByteBuffer 包含 84数据字节。
Cassandra system.log 显示如下错误:
ERROR [Thread-388] 2015-05-18 12:11:10,147 CassandraDaemon.java (line 199) Exception in thread Thread[Thread-388,5,main]
java.lang.OutOfMemoryError: Java heap space
ERROR [ReadStage:321] 2015-05-18 12:11:10,147 CassandraDaemon.java (line 199) Exception in thread Thread[ReadStage:321,5,main]
java.lang.OutOfMemoryError: Java heap space
at java.nio.HeapByteBuffer.<init>(HeapByteBuffer.java:57)
at java.nio.ByteBuffer.allocate(ByteBuffer.java:331)
at org.apache.cassandra.io.util.MappedFileDataInput.readBytes(MappedFileDataInput.java:146)
at org.apache.cassandra.utils.ByteBufferUtil.read(ByteBufferUtil.java:392)
at org.apache.cassandra.utils.ByteBufferUtil.readWithShortLength(ByteBufferUtil.java:371)
at org.apache.cassandra.io.sstable.IndexHelper$IndexInfo.deserialize(IndexHelper.java:187)
at org.apache.cassandra.db.RowIndexEntry$Serializer.deserialize(RowIndexEntry.java:122)
at org.apache.cassandra.io.sstable.SSTableReader.getPosition(SSTableReader.java:970)
at org.apache.cassandra.io.sstable.SSTableReader.getPosition(SSTableReader.java:871)
at org.apache.cassandra.db.columniterator.SSTableSliceIterator.<init>(SSTableSliceIterator.java:41)
at org.apache.cassandra.db.filter.SliceQueryFilter.getSSTableColumnIterator(SliceQueryFilter.java:167)
at org.apache.cassandra.db.filter.QueryFilter.getSSTableColumnIterator(QueryFilter.java:62)
at org.apache.cassandra.db.CollationController.collectAllData(CollationController.java:250)
at org.apache.cassandra.db.CollationController.getTopLevelColumns(CollationController.java:53)
at org.apache.cassandra.db.ColumnFamilyStore.getTopLevelColumns(ColumnFamilyStore.java:1547)
at org.apache.cassandra.db.ColumnFamilyStore.getColumnFamily(ColumnFamilyStore.java:1376)
at org.apache.cassandra.db.Keyspace.getRow(Keyspace.java:327)
at org.apache.cassandra.db.SliceFromReadCommand.getRow(SliceFromReadCommand.java:65)
at org.apache.cassandra.db.ReadVerbHandler.doVerb(ReadVerbHandler.java:47)
at org.apache.cassandra.net.MessageDeliveryTask.run(MessageDeliveryTask.java:60)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
at java.lang.Thread.run(Thread.java:724)
您正在对多个分区使用 "IN" 查询,因为可伸缩性是分区键的一部分。这导致 cassandra 跨多个节点协调查询。有关更多详细信息,请参阅 this.
解决方案是 运行 对可伸缩性中的每个值进行单独查询,然后手动合并结果或不使其成为分区键的一部分,即。 PRIMARY KEY ((fieldname, fieldvalue), scalability, timestamptdr)
如果可能的话。