无法使用 Apache Nutch 抓取 RDF 数据

Question

我正在尝试使用 Apache Nutch 1.15 抓取 DBpedia，但我在解析 RDF 文件时遇到问题。

在解析阶段，我只收到这条消息：

**apache_nutch |解析错误：http://dbpedia.org/data/Moscow.xml：失败（2,0）：无法检索 mime 类型 application/rdf+xml 的 Tika 解析器 **

在这个 reference 之后，我配置了我的 parse-plugins.xml 来解析 application/rdf+xml 如下：

<mimeType name="application/rdf+xml">
    <plugin id="parse-tika" />
    <plugin id="feed" />
</mimeType>

但是，消息仍然存在。

即使我使用 Any23，也将解析过滤器映射为

<alias name="any23-parserFilter"
        extension-id="Any23Parser" />

并将 mime 类型的解析器设置为：

<mimeType name="application/rdf+xml">
    <plugin id="parse-tika" />
    <plugin id="feed" />
</mimeType>

消息仍然存在。

我在这里缺少什么？

Answer 1

Nutch any23 plugin 针对嵌入式 RDF (RDFa) 和微数据。从技术上讲，它只实现了 HtmlParseFilter，它要求文档被 Parser 实现成功解析。

要提取 RDFa，试试这个，您应该会看到许多提取的三元组：

> bin/nutch parsechecker \
   -Dany23.extractors=html-microdata,html-rdfa11 \
   -Dplugin.includes='protocol-http|parse-html|any23' \
  https://schema.org/NewsArticle
...
Any23-Triples=<https://schema.org/NewsArticle> <http://www.w3.org/ns/rdfa#usesVocabulary> <http://schema.org/> .
...

无法使用 Apache Nutch 抓取 RDF 数据

Can't crawl RDF Data with Apache Nutch

rdf

web-crawler

nutch

linked-data