DSpace 5.1 Solr 项目计数总数不同步

DSpace 5.1 Solr item count totals out of sync

我正在帮助支持 DSpace 5.1 安装。我们的客户报告了一个长期存在的问题,即所有项目计数(在 /statistics 中)与所有其他类型项目计数的总和不匹配,并且会随着时间的推移而变化。

我猜并非所有操作(例如,提取项目?)都正确更新了缓存值,这些值似乎来自 Solr 'statistics' 核心。

我认为我需要做的是运行 [dspace]/bin/dspace solr-reindex-statistics (Reindex SOLR statistics, for upgrades or whenever the Solr schema for statistics is changed),但这会导致DSpace 5.1 中的使用错误;看来 solr-reindex-statistics 命令在 DSpace 5.1

中不可用

鉴于我们之前显然已经解决了此类问题,我认为在作为重大升级的一部分进行重新索引时,这个问题会得到解决。

我想我需要遵循的程序是:

  1. 停止tomcat
  2. 备份 [dspace]/solr/statistics
  3. 开始tomcat
  4. as tomcat, 运行 [dspace]/bin/dspace stats-util -b -r
  5. 完成后,重新启动 tomcat

这看起来是明智的做法吗?我真的只想更新项目计数,我不想丢失任何无法重建的东西。

查看我以前升级到 5.1 时的节点(从 5.0 或 4.x,我不确定我们来自哪个版本),我们执行了以下操作:

su - tomcat -s /bin/bash
  /usr/local/dspace/bin/dspace index-db-browse -f -d
  /usr/local/dspace/bin/dspace index-discovery -bf   ### perhaps an hour
  /usr/local/dspace/bin/dspace oai import -c -o
  /usr/local/dspace/bin/dspace oai clean-cache
  logout

在随后的升级中,当我们迁移到 Mirage2 界面时,我们也完成了 [dspace]/bin/dspace index-discovery -b 过程,这花了大半个小时到 运行。

不确定这是否是解决方案的一部分,但它看起来像是一把沉重的锤子。

我既不制定也不推动此部署的维护计划,我只是进行部署和操作。不幸的是,开发方面有一些人员变动,所以目前升级是不可行的,我们已经失去了一些关于这个平台的制度知识。

非常感谢, 卡梅伦

DSpace 5中有2个统计机制。

基于 SOLR 的统计信息可在名为 "Usage Statistics" 的链接中找到。

如果 SOLR 运行 正确,则应收集这些统计信息。 "stats-util" cron 任务支持收集这些统计信息,但您不需要它们来查看报告的数字。 运行 "stats-util -h" 有关每个选项的使用信息。

通过单击 "Usage Statistics" 链接,可以在层次结构的每个级别报告 Solr 统计信息。不幸的是,社区或集合的使用数字显示了对该 community/collection 的访问。它们不会显示该集合或社区中所有项目的累计计数。

"legacy statistics" 是从日志文件中提取的。这些链接位于 /statistics 下。这些统计数据是使用任务 "stat-monthly" 和 "stat-general" 任务生成的。我在我的实例中禁用了这些报告,因为我没有发现这些数字是可靠的。

有关详细信息,请参阅 https://wiki.duraspace.org/display/DSDOC7x/Command+Line+Operations#CommandLineOperations-Legacystatistics。请注意使用 Solr Statistics 的建议。

如果您需要其他支持,请查看 https://wiki.duraspace.org/display/DSPACE/Support