正在将 SQL 中的选定列加载到 PySpark
Loading Selected Column from SQL to PySpark
我是 (Py)Spark 的新手。我有一个非常大的数据集。我有两个 table 我想加入。数据集驻留在 SQL 数据库中。我正在使用 Jupyter 笔记本。
所以,我只想从 SQL table 加载我分析所需的唯一列。
vod_raw_data = spark.read.jdbc(url="jdbc:sqlserver://000.110.000.71",
table="BBBBBBB",
properties={"user": "uuu",
"password": "xxxx"})
第一题
- 有人能告诉我如何只获取需要的列(例如 SQL.select cola、colb、colc)而不是整个 table
和第二个一样table然后加入他们?
第二个问题
- 我应该在 PySpark 中导入两个 table 然后加入,还是我可以通过其他方式加入?
提前致谢
您可以为此使用 select。
needed_cols = ['cols here']
vod_raw_data = spark.read.jdbc(url="jdbc:sqlserver://000.110.000.71",
table="BBBBBBB",
properties={"user": "uuu",
"password": "xxxx"}).select(*needed_cols)
我是 (Py)Spark 的新手。我有一个非常大的数据集。我有两个 table 我想加入。数据集驻留在 SQL 数据库中。我正在使用 Jupyter 笔记本。
所以,我只想从 SQL table 加载我分析所需的唯一列。
vod_raw_data = spark.read.jdbc(url="jdbc:sqlserver://000.110.000.71",
table="BBBBBBB",
properties={"user": "uuu",
"password": "xxxx"})
第一题
- 有人能告诉我如何只获取需要的列(例如 SQL.select cola、colb、colc)而不是整个 table
和第二个一样table然后加入他们?
第二个问题
- 我应该在 PySpark 中导入两个 table 然后加入,还是我可以通过其他方式加入?
提前致谢
您可以为此使用 select。
needed_cols = ['cols here']
vod_raw_data = spark.read.jdbc(url="jdbc:sqlserver://000.110.000.71",
table="BBBBBBB",
properties={"user": "uuu",
"password": "xxxx"}).select(*needed_cols)