使用 python 仅更新空 mysql 字段

updating only null mysql fields using python

我遇到这样的问题:

我有很多非标准化格式的 cvs 文件。 这是一个例子:

"VarName";"TimeString";"VarValue";"Validity";"Time_ms"
"Data_block_1_HC1_sec_voltage";"02.07.2015 14:16:56";3,740281;1;42187595088,2176
"Data_block_1_TC1.1";"02.07.2015 14:17:56";1319,3;1;42187595782,6042
"Data_block_1_TC1.2";"02.07.2015 14:17:56";1319,8;1;42187595782,6042
"Data_block_1_TCF1.1";"02.07.2015 14:17:56";513,9;1;42187595782,6042
"HC1_HC1_output";"02.07.2015 14:17:56";0;1;42187595782,6042
"Data_block_1_HC1_sec_cur";"02.07.2015 14:17:56";1782,873;1;42187595782,6042
"Data_block_1_HC1_power";"02.07.2015 14:17:56";6,68997;1;42187595782,6273
"HC1_HC1_setpoint";"02.07.2015 14:17:56";1320;1;42187595782,6273
"Data_block_1_HC1_sec_voltage";"02.07.2015 14:17:56";3,74994;1;42187595782,6273
"Data_block_1_TC1.1";"02.07.2015 14:18:56";1319,3;1;42187596477,0023
"Data_block_1_TC1.2";"02.07.2015 14:18:56";1320;1;42187596477,0023
"Data_block_1_TCF1.1";"02.07.2015 14:18:56";514,2;1;42187596477,0023
"HC1_HC1_output";"02.07.2015 14:18:56";0;1;42187596477,0023
"Data_block_1_HC1_sec_cur";"02.07.2015 14:18:56";1779,488;1;42187596477,0023
"Data_block_1_HC1_power";"02.07.2015 14:18:56";6,672971;1;42187596477,0255
"HC1_HC1_setpoint";"02.07.2015 14:18:56";1320;1;42187596477,0255

恰好有 8 个变量具有相同的时间戳。

这是我用来形成数据的代码:

import csv
from collections import defaultdict
import os

from glob import glob
from datetime import datetime
from sqlalchemy import create_engine
from sqlalchemy import Table, Column, Integer, String, MetaData, ForeignKey

i=1
engine = create_engine('mysql+pymysql://root@localhost/test',echo=False)
conn = engine.connect()
metadata = MetaData(bind=engine)
data_dir = ''


sql_values_list = list()


for file_name in glob(os.path.join(data_dir, 'HC10.csv')):
    with open(file_name, 'rt') as f:
        #data_file=open('HC10.csv','rU')
        reader=csv.DictReader(f,delimiter=';', quotechar='"')
        data=defaultdict(lambda:[None,None,None,None,None,None,None,None])
        fruit_to_index = defaultdict(lambda:None,{'Data_block_1_HC1_sec_voltage':0,'Data_block_1_TC1.1':1,'Data_block_1_TC1.2':2,'Data_block_1_TCF1.1':3,'HC1_HC1_output':4,'Data_block_1_HC1_sec_cur':5,'Data_block_1_HC1_power':6,'HC1_HC1_setpoint':7})
        for row in reader:
            if fruit_to_index[row['VarName']] != None:

                data[datetime.strptime(row['TimeString'], '%d.%m.%Y %H:%M:%S')][fruit_to_index[row['VarName']]] = float(row['VarValue'].replace(',', '.'))
                i=i+1
                if i==2:
                    for key, value in data.items():
                        if value !=
                        sql_values_list.append((key, value[0], value[1], value[2], value[3], value[4], value[5], value[6], value[7]))
                        i=3
                        print(sql_values_list)
        f.close()

数据输出这个字典:

defaultdict(<function <lambda> at 0x038C26F0>, {datetime.datetime(2015, 8, 15, 15, 1, 33): [4.034867, 1324.1, 1325.0, 533.7, 0.0, 1922.136, 7.755563, 1325.0], datetime.datetime(2015, 8, 15, 15, 4, 33): [4.034867, 1324.1, 1325.0, 533.7, 0.0, 1930.6, 7.794376, 1325.0],.... 

这是我的问题:

由于一个时间戳及其变量可以在多个文件中(每个文件大约有 12 000 行)并且有超过 300 个文件,我不想一次处理它们。它的记忆消耗很大,这对我没有太大帮助,因为新的时间戳每分钟都会附加到新文件中。为了更好地理解这里有一个例子:

假设我处理了一个文件(大约 12000 行)并且一个时间戳的输出可能是这样的:datetime.datetime(2015, 8, 15, 15, 1, 33): [4.034867, NULL, NULL, NULL, 0.0, 1922.136, NULL, 1325.0]

我想把它插入mysql。下次我 运行 将脚本放在不同的文件上。我的输出如下:

datetime.datetime(2015, 8, 15, 15, 1, 33): [NULL, 1324.1, 1325.0, 533.7, NULL, NULL, 7.755563, NULL],

请注意,一个时间戳总是有 8 个变量,因此每个时间戳不能有两个不同的值。

更新后的结果应该是:

datetime.datetime(2015, 8, 15, 15, 1, 33): [4.034867, 1324.1, 1325.0, 533.7, 0.0, 1922.136, 7.755563, 1325.0],

我需要为给定时间戳(数据库中的主键)更新 mysql 数据库,但只更新 NULL 字段。因为在偶然更新时我会用 NULL 值重写存储的变量。

我知道有一个名为 ISNULLcoalesce 的 sql 声明。 但我必须在 python 中执行此操作。我正在使用 vesrion 3.4 和 pyMysql 作为 sqlalchemy 的连接器。我知道 sqlalclhemy 可以进行更新,但没有什么比 isnull 更好的了。请帮忙,因为这对我来说非常重要,而我的 python 知识非常少。也许可以有另一种解决方案如何在没有更新的情况下做到这一点,但对我来说似乎很难。非常感谢您的帮助

我想我今天找到了解决办法。 这正是我需要的:

sql = "INSERT INTO `projections_sample` (`id`,`month`, `revenue`) VALUES (%s,%s, %s) ON DUPLICATE KEY UPDATE month=IF(VALUES(month)IS NULL,month,VALUES(month)),revenue=IF(VALUES(revenue)IS NULL,revenue,VALUES(revenue))"

它使用 pymysql,它只更新 NULL 字段,保留现有记录。但是我不知道这个解决方案有多可靠,但这就是我需要的,这样做对我来说真的很重要