predictionio 中显示的事件总数少于实际事件

Total number of events in predictionio are showing less than the actual events

我是 predictionIO V 0.12.0(elasticsearch - 5.2.1,hbase - 1.2.6,spark - 2.6.0)硬件(244 GB RAM 和 Core - 32)的新手。我已经上传了将近 100 万个事件(每个事件包含 30k 个特征)。上传时我可以看到 hbase 磁盘的大小在增加,所有事件上传后 hbase 磁盘的大小为 567GB。为了验证我运行下面的命令

 - pio-shell --with-spark --conf spark.network.timeout=10000000 --driver-memory 30G --executor-memory 21G --num-executors 7 --executor-cores 3 --conf spark.driver.maxResultSize=4g --conf spark.executor.heartbeatInterval=10000000
 - import org.apache.predictionio.data.store.PEventStore
 - val eventsRDD = PEventStore.find(appName="test")(sc)
 - val c = eventsRDD.count() 

它显示事件计数为 18944

从我上传事件的脚本中,我 运行domly 查询了那里的事件 ID,我得到了那个事件。

我不知道如何确保我上传的所有活动都在应用程序中。感谢任何帮助。

终于弄明白

发生了什么
org.apache.predictionio.data.storage.hbase.HBPEvents

val scan = HBEventsUtil.createScan(
    startTime = startTime,
    untilTime = untilTime,
    entityType = entityType,
    entityId = entityId,
    eventNames = eventNames,
    targetEntityType = targetEntityType,
    targetEntityId = targetEntityId,
    reversed = None)
scan.setCaching(500) // TODO
scan.setCacheBlocks(false) // TODO

scan.setCaching(500) 可能会导致请求超时。您可以为此尝试降低缓存值。您需要更改源代码并重新编译。