无法使用 Apache Nutch 抓取 RDF 数据

Can't crawl RDF Data with Apache Nutch

我正在尝试使用 Apache Nutch 1.15 抓取 DBpedia,但我在解析 RDF 文件时遇到问题。

在解析阶段,我只收到这条消息:

**apache_nutch |解析错误:http://dbpedia.org/data/Moscow.xml:失败(2,0):无法检索 mime 类型 application/rdf+xml 的 Tika 解析器 **

在这个 reference 之后,我配置了我的 parse-plugins.xml 来解析 application/rdf+xml 如下:

<mimeType name="application/rdf+xml">
    <plugin id="parse-tika" />
    <plugin id="feed" />
</mimeType>

但是,消息仍然存在。

即使我使用 Any23,也将解析过滤器映射为

<alias name="any23-parserFilter"
        extension-id="Any23Parser" />

并将 mime 类型的解析器设置为:

<mimeType name="application/rdf+xml">
    <plugin id="parse-tika" />
    <plugin id="feed" />
</mimeType>

消息仍然存在。

我在这里缺少什么?

Nutch any23 plugin 针对嵌入式 RDF (RDFa) 和微数据。从技术上讲,它只实现了 HtmlParseFilter,它要求文档被 Parser 实现成功解析。

要提取 RDFa,试试这个,您应该会看到许多提取的三元组:

> bin/nutch parsechecker \
   -Dany23.extractors=html-microdata,html-rdfa11 \
   -Dplugin.includes='protocol-http|parse-html|any23' \
  https://schema.org/NewsArticle
...
Any23-Triples=<https://schema.org/NewsArticle> <http://www.w3.org/ns/rdfa#usesVocabulary> <http://schema.org/> .
...