Python CSV 导入在前 20 万行后花费了太多时间

Question

我有一个 python 导入 CSV 的导入脚本。将 20k 行导入 mysql 数据库大约需要 45 秒。问题是现在我有一个巨大的文件（400 万行），当它到达文件的第 ~200k 行时，导入这些相同的 20k 行大约需要 200 秒。

我不知道这是数据库问题还是文件读取本身...这是我的脚本：

import csv
import mysql.connector
from mysql.connector import Error
import argparse
from itertools import islice

parser = argparse.ArgumentParser()
parser.add_argument('file', type=argparse.FileType('r'))
args = parser.parse_args() 



def parseData(row):
    sql = """INSERT INTO TABLE 
    (column1,column2) 
    VALUES( '%s','%s');""" % (
        row['col1'],row['col2'],) 


    return sql


def dataImport(filename,connection,cursor):
        data = csv.DictReader(filename,delimiter=';')
        i = 0 
        for row in data:
            sql = parseData(row)
            try:
                result = cursor.execute(sql)
                pass
            except Error as e:
                    pass 

            if i%20000 == 0: 
                connection.commit()

            i=i+1

def importa(file):

    try:
        connection = mysql.connector.connect(host=host,
                                            database=db,
                                            user=user,
                                            password=password)

        if connection.is_connected():
            db_Info = connection.get_server_info()
            print("Connected to MySQL Server version ", db_Info)

            cursor = connection.cursor()
            dataImport(file,connection,cursor)

            cursor.close()


    except Error as e:
        print("Error while connecting to MySQL", e)


if __name__ == "__main__":
    importa(args.file)

Answer 1

使用 executemany 执行 20K 行的单个插入而不是 20K 单独的 INSERT 语句将优化传输，但数据库本身也可能是性能下降的一个因素。 this page 中间有一个代码示例。

根据我们的评论交流，数据库是性能低下的最终罪魁祸首。我看到的一个想法是在加载所有内容之前禁用索引。

ALTER TABLE table DISABLE KEYS;
... executemany called a bunch of times...
ALTER TABLE table ENABLE KEYS;

这可能值得一试。

Python CSV 导入在前 20 万行后花费了太多时间

Python CSV Import taking too much time after first 200k rows

python

mysql

import-csv