无法使用 Anzograph 加载错误数据

Can't load bad data with Anzograph

我正在尝试使用 LOAD WITH 'global' <file:wdump-749.nt.gz> INTO GRAPH <WD_749> 通过 Anzograph 加载经过过滤的维基数据转储。文件存在; Anzograph 给出了这个错误:

Error - At Turtle production subject=http://www.wikidata.org/entity/Q144> predicate=http://www.wikidata.org/prop/direct/P1319> file=wdump-749.nt.gz line=3229 details: -34000-01-01T00:00:00Z:Datum is not a datetime, use setting 'load_normalize_datetime' to patch bad data

我已经在 Anzograph 的文件系统中的 settings.confsettings_anzograph.conf 中设置了 load_normalize_datetime=true,重新启动了服务器,但仍然无法加载转储。我得到完全相同的错误。

load_normalize_datetime 不接受布尔值。将负载中的错误日期时间更改为此值,例如0001-01-01T00:00:00Z

所以尝试设置:

load_normalize_datetime=0001-01-01T00:00:00Z

在您的 settings.conf 中,它使用您列出的命令在该特定文件上为我工作。

WD_749 有 38,131,614 条语句,在 372 秒内加载到我的 Thinkpad 上。加载速度相对较慢(每秒 102k 三倍),因为它是单个文件。如果你将它分解成更小的部分(你可以使用 COPY 命令将图形转储到目录:/mydir/wdump-749.nt.gz)它将并行加载(对我来说是 114 秒,335k tps ).