无法使用 Apache Nutch 抓取 RDF 数据
Can't crawl RDF Data with Apache Nutch
我正在尝试使用 Apache Nutch 1.15 抓取 DBpedia,但我在解析 RDF 文件时遇到问题。
在解析阶段,我只收到这条消息:
**apache_nutch |解析错误:http://dbpedia.org/data/Moscow.xml:失败(2,0):无法检索 mime 类型 application/rdf+xml 的 Tika 解析器
**
在这个 reference 之后,我配置了我的 parse-plugins.xml 来解析 application/rdf+xml 如下:
<mimeType name="application/rdf+xml">
<plugin id="parse-tika" />
<plugin id="feed" />
</mimeType>
但是,消息仍然存在。
即使我使用 Any23,也将解析过滤器映射为
<alias name="any23-parserFilter"
extension-id="Any23Parser" />
并将 mime 类型的解析器设置为:
<mimeType name="application/rdf+xml">
<plugin id="parse-tika" />
<plugin id="feed" />
</mimeType>
消息仍然存在。
我在这里缺少什么?
Nutch any23 plugin 针对嵌入式 RDF (RDFa) 和微数据。从技术上讲,它只实现了 HtmlParseFilter,它要求文档被 Parser 实现成功解析。
要提取 RDFa,试试这个,您应该会看到许多提取的三元组:
> bin/nutch parsechecker \
-Dany23.extractors=html-microdata,html-rdfa11 \
-Dplugin.includes='protocol-http|parse-html|any23' \
https://schema.org/NewsArticle
...
Any23-Triples=<https://schema.org/NewsArticle> <http://www.w3.org/ns/rdfa#usesVocabulary> <http://schema.org/> .
...
我正在尝试使用 Apache Nutch 1.15 抓取 DBpedia,但我在解析 RDF 文件时遇到问题。
在解析阶段,我只收到这条消息:
**apache_nutch |解析错误:http://dbpedia.org/data/Moscow.xml:失败(2,0):无法检索 mime 类型 application/rdf+xml 的 Tika 解析器 **
在这个 reference 之后,我配置了我的 parse-plugins.xml 来解析 application/rdf+xml 如下:
<mimeType name="application/rdf+xml">
<plugin id="parse-tika" />
<plugin id="feed" />
</mimeType>
但是,消息仍然存在。
即使我使用 Any23,也将解析过滤器映射为
<alias name="any23-parserFilter"
extension-id="Any23Parser" />
并将 mime 类型的解析器设置为:
<mimeType name="application/rdf+xml">
<plugin id="parse-tika" />
<plugin id="feed" />
</mimeType>
消息仍然存在。
我在这里缺少什么?
Nutch any23 plugin 针对嵌入式 RDF (RDFa) 和微数据。从技术上讲,它只实现了 HtmlParseFilter,它要求文档被 Parser 实现成功解析。
要提取 RDFa,试试这个,您应该会看到许多提取的三元组:
> bin/nutch parsechecker \
-Dany23.extractors=html-microdata,html-rdfa11 \
-Dplugin.includes='protocol-http|parse-html|any23' \
https://schema.org/NewsArticle
...
Any23-Triples=<https://schema.org/NewsArticle> <http://www.w3.org/ns/rdfa#usesVocabulary> <http://schema.org/> .
...