在加载到 apache-jena TDB triplestore 之前清理 YAGO 文件
Sanitize YAGO files before loading into apache-jena TDB triplestore
我想使用 YAGO 3 rdf 三元组(yago3_entire_ttl.7z 来自 http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago/downloads/ )到使用 tdbloader 的 apache-jena 三重存储 (3.1.0) 中。
apache-jena 提供的用于验证输入的 riot 工具给出了 2 种类型的错误(多次出现):
- 非法的 unicode 转义序列值:\\ (0x5C)
- IRI 中的非法字符(代码点 0x7C,“|”)
我明显的想法是替换'\\'和'|'具有通过防暴验证的可接受字符序列,但我想知道是否还有其他解决方案?
在这里找到了解决方案:
Now the .ttl files needs to get some kind of preprocessed, where non-unicode characters are replaced in order for Jena to accept the data. On Linux run sed -i 's/|/-/g' ./* && sed -i 's/\/-/g' ./* && sed -i 's/–/-/g' ./* from within the directory where your .ttl files are. On Windows, start the Ubuntu Bash, navigate to the respective directory (e.g. /mnt/c/Users/Ferdinand/yago) and do the same command. It will take several minutes. I mean, really several...
https://ferdinand-muetsch.de/how-to-load-yago-into-apache-jena-fuseki.html
我想使用 YAGO 3 rdf 三元组(yago3_entire_ttl.7z 来自 http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago/downloads/ )到使用 tdbloader 的 apache-jena 三重存储 (3.1.0) 中。
apache-jena 提供的用于验证输入的 riot 工具给出了 2 种类型的错误(多次出现):
- 非法的 unicode 转义序列值:\\ (0x5C)
- IRI 中的非法字符(代码点 0x7C,“|”)
我明显的想法是替换'\\'和'|'具有通过防暴验证的可接受字符序列,但我想知道是否还有其他解决方案?
在这里找到了解决方案:
Now the .ttl files needs to get some kind of preprocessed, where non-unicode characters are replaced in order for Jena to accept the data. On Linux run sed -i 's/|/-/g' ./* && sed -i 's/\/-/g' ./* && sed -i 's/–/-/g' ./* from within the directory where your .ttl files are. On Windows, start the Ubuntu Bash, navigate to the respective directory (e.g. /mnt/c/Users/Ferdinand/yago) and do the same command. It will take several minutes. I mean, really several...
https://ferdinand-muetsch.de/how-to-load-yago-into-apache-jena-fuseki.html