如何link Virtuoso分布式版本到Hadoop

How to link Virtuoso distributed version to Hadoop

我有一个 4 个节点的集群,我安装了 Hadoop+ Spark (GraphX)...

现在我必须处理一个大的 RDF 数据集, 我的问题是:我可以在集群上安装 Virtuoso 以存储此 RDF 数据集并能够执行 SPARQL 分布式查询吗?

据您所知,我需要一个 Web 端点来允许用户输入他们的 SPARQL 查询。

换句话说:Virtuoso 是一个很好的解决方案,可以在 hadoop 集群中运行,并且可以使用 SPARK 执行分布式查询吗?

Apache Spark website indicates that Spark SQL 可用于跨 JDBC 和 JSON 数据源进行查询 --

DataFrames and SQL provide a common way to access a variety of data sources, including Hive, Avro, Parquet, ORC, JSON, and JDBC. You can even join data across these sources.

Virtuoso(开源版和企业版)可以将 SPARQL 结果作为 JSON 序列化,因此这是一个选项。

我们 (OpenLink Software) 还为 Virtuoso 提供 JDBC 驱动程序(同样,开源版和企业版),所以这也是一个选项。

我们不是 Apache Spark 专家,因此除了协助 Virtuoso JDBC URL and/or 在 JSON 序列化中检索 SPARQL 查询结果外,我们无法提供太多指导来让这些工作正常进行。


反之,Virtuoso(企业版,非开源版)可以用来查询外部ODBC数据源,Hadoop/SPARK数据源也有ODBC驱动,所以这也是一个选项。

我们不是 Apache Spark 专家,因此我们无法提供太多关于让他们的驱动程序正常工作的指导,但是一旦您在 Virtuoso 主机上拥有功能正常的 ODBC DSN,我们可以协助让 Virtuoso 连接到它并对其进行查询。

您是否正在寻求使用 SPARK 作业从 Hadoop 集群上传 RDF 数据集?如果是这样,您可以使用 JDBC 和 Virtuoso 的连接。

我偶然发现了一个 Dzone doc that covers SPARK and JDBC which once understood you can apply to Virtuoso via its ability to process SPARQL queries via SQL connections

希望对你有帮助,如果没有,我们可以进一步讨论。