将 Pyspark 连接到 Oracle SQL

Connecting Pyspark to Oracle SQL

我几乎是 spark 的新手。我想将 pyspark 连接到 oracle sql,我正在使用以下 pyspark 代码:

from pyspark import SparkConf, SparkContext
from pyspark.sql import SQLContext, Row
import os

spark_config = SparkConf().setMaster("local").setAppName("Project_SQL")
sc = SparkContext(conf = spark_config)
sqlctx = SQLContext(sc)

os.environ['SPARK_CLASSPATH'] = "C:\Program Files (x86)\Oracle\SQL Developer 4.0.1\jdbc\lib.jdbc6.jar"


df = sqlctx.read.format("jdbc").options(url="jdbc:oracle:thin:@<>:<>:<>"
                                   , driver = "oracle.ojdbc6.jar.OracleDriver"
                                   , dbtable = "account"
                                   , user="...."
                                   , password="...").load()

但我收到以下错误:

An error occurred while calling o29.load.: 
java.lang.ClassNotFoundExceotion : oracle.ojdbc6.jar.OracleDriver

我进行了很多搜索并尝试了几种方法,我找到了 change/correct 驱动程序的路径,但仍然遇到相同的错误。

有人可以帮我解决这个问题吗?

尝试将 oracle JDBC 连接 jar 放在 spark

下的 jars 文件夹中

oracle.ojdbc6.jar.OracleDriver 不是 Oracle JDBC driver 的有效 driver class 名称。 driver 的名称是 oracle.jdbc.driver.OracleDriver。只需确保 Oracle driver 的 jar-file 在 class 路径上。