将大型 csv 加载到 RDB 的推荐方法 mysql

Question

目标：构建一个小型 ETL 框架以获取巨大的 CSV 并将其转储到 RDB（比如 MySQL）。

我们正在考虑的当前方法是使用 spark 将 csv 加载到数据帧中并将其持久化，然后使用像 apache scoop 这样的框架并将其加载到 mySQL。

需要关于坚持哪种格式和方法本身的建议。

编辑： CSV 将有大约 5000 万行和 50-100 列。由于我们的任务在转储到 RDB 之前涉及大量转换，因此我们认为使用 spark 是个好主意。

Answer 1

Spark SQL 支持直接写入 RDB。您可以将巨大的 CSV 加载为 DataFrame，对其进行转换，然后调用 API 将其保存到数据库中。请参考以下API：

org.apache.spark.sql.execution.datasources.jdbc.JdbcUtils
def saveTable(df: DataFrame,
              url: String,
              table: String,
              properties: Properties): Unit
Saves the RDD to the database in a single transaction.

示例代码：

val url: String = "jdbc:oracle:thin:@your_domain:1521/dbname"
val driver: String = "oracle.jdbc.OracleDriver"
val props = new java.util.Properties()
props.setProperty("user", "username")
props.setProperty("password", "userpassword")
org.apache.spark.sql.execution.datasources.jdbc.JdbcUtils.saveTable(dataFrame, url, "table_name", props)

将大型 csv 加载到 RDB 的推荐方法 mysql

Recommended ways to load large csv to RDB like mysql

mysql

etl

apache-spark

parquet

spark-dataframe