使用 python 仅更新空 mysql 字段
updating only null mysql fields using python
我遇到这样的问题:
我有很多非标准化格式的 cvs 文件。
这是一个例子:
"VarName";"TimeString";"VarValue";"Validity";"Time_ms"
"Data_block_1_HC1_sec_voltage";"02.07.2015 14:16:56";3,740281;1;42187595088,2176
"Data_block_1_TC1.1";"02.07.2015 14:17:56";1319,3;1;42187595782,6042
"Data_block_1_TC1.2";"02.07.2015 14:17:56";1319,8;1;42187595782,6042
"Data_block_1_TCF1.1";"02.07.2015 14:17:56";513,9;1;42187595782,6042
"HC1_HC1_output";"02.07.2015 14:17:56";0;1;42187595782,6042
"Data_block_1_HC1_sec_cur";"02.07.2015 14:17:56";1782,873;1;42187595782,6042
"Data_block_1_HC1_power";"02.07.2015 14:17:56";6,68997;1;42187595782,6273
"HC1_HC1_setpoint";"02.07.2015 14:17:56";1320;1;42187595782,6273
"Data_block_1_HC1_sec_voltage";"02.07.2015 14:17:56";3,74994;1;42187595782,6273
"Data_block_1_TC1.1";"02.07.2015 14:18:56";1319,3;1;42187596477,0023
"Data_block_1_TC1.2";"02.07.2015 14:18:56";1320;1;42187596477,0023
"Data_block_1_TCF1.1";"02.07.2015 14:18:56";514,2;1;42187596477,0023
"HC1_HC1_output";"02.07.2015 14:18:56";0;1;42187596477,0023
"Data_block_1_HC1_sec_cur";"02.07.2015 14:18:56";1779,488;1;42187596477,0023
"Data_block_1_HC1_power";"02.07.2015 14:18:56";6,672971;1;42187596477,0255
"HC1_HC1_setpoint";"02.07.2015 14:18:56";1320;1;42187596477,0255
恰好有 8 个变量具有相同的时间戳。
这是我用来形成数据的代码:
import csv
from collections import defaultdict
import os
from glob import glob
from datetime import datetime
from sqlalchemy import create_engine
from sqlalchemy import Table, Column, Integer, String, MetaData, ForeignKey
i=1
engine = create_engine('mysql+pymysql://root@localhost/test',echo=False)
conn = engine.connect()
metadata = MetaData(bind=engine)
data_dir = ''
sql_values_list = list()
for file_name in glob(os.path.join(data_dir, 'HC10.csv')):
with open(file_name, 'rt') as f:
#data_file=open('HC10.csv','rU')
reader=csv.DictReader(f,delimiter=';', quotechar='"')
data=defaultdict(lambda:[None,None,None,None,None,None,None,None])
fruit_to_index = defaultdict(lambda:None,{'Data_block_1_HC1_sec_voltage':0,'Data_block_1_TC1.1':1,'Data_block_1_TC1.2':2,'Data_block_1_TCF1.1':3,'HC1_HC1_output':4,'Data_block_1_HC1_sec_cur':5,'Data_block_1_HC1_power':6,'HC1_HC1_setpoint':7})
for row in reader:
if fruit_to_index[row['VarName']] != None:
data[datetime.strptime(row['TimeString'], '%d.%m.%Y %H:%M:%S')][fruit_to_index[row['VarName']]] = float(row['VarValue'].replace(',', '.'))
i=i+1
if i==2:
for key, value in data.items():
if value !=
sql_values_list.append((key, value[0], value[1], value[2], value[3], value[4], value[5], value[6], value[7]))
i=3
print(sql_values_list)
f.close()
数据输出这个字典:
defaultdict(<function <lambda> at 0x038C26F0>, {datetime.datetime(2015, 8, 15, 15, 1, 33): [4.034867, 1324.1, 1325.0, 533.7, 0.0, 1922.136, 7.755563, 1325.0], datetime.datetime(2015, 8, 15, 15, 4, 33): [4.034867, 1324.1, 1325.0, 533.7, 0.0, 1930.6, 7.794376, 1325.0],....
这是我的问题:
由于一个时间戳及其变量可以在多个文件中(每个文件大约有 12 000 行)并且有超过 300 个文件,我不想一次处理它们。它的记忆消耗很大,这对我没有太大帮助,因为新的时间戳每分钟都会附加到新文件中。为了更好地理解这里有一个例子:
假设我处理了一个文件(大约 12000 行)并且一个时间戳的输出可能是这样的:datetime.datetime(2015, 8, 15, 15, 1, 33): [4.034867, NULL, NULL, NULL, 0.0, 1922.136, NULL, 1325.0]
我想把它插入mysql。下次我 运行 将脚本放在不同的文件上。我的输出如下:
datetime.datetime(2015, 8, 15, 15, 1, 33): [NULL, 1324.1, 1325.0, 533.7, NULL, NULL, 7.755563, NULL],
请注意,一个时间戳总是有 8 个变量,因此每个时间戳不能有两个不同的值。
更新后的结果应该是:
datetime.datetime(2015, 8, 15, 15, 1, 33): [4.034867, 1324.1, 1325.0, 533.7, 0.0, 1922.136, 7.755563, 1325.0],
我需要为给定时间戳(数据库中的主键)更新 mysql 数据库,但只更新 NULL 字段。因为在偶然更新时我会用 NULL 值重写存储的变量。
我知道有一个名为 ISNULL
或 coalesce
的 sql 声明。
但我必须在 python 中执行此操作。我正在使用 vesrion 3.4 和 pyMysql 作为 sqlalchemy 的连接器。我知道 sqlalclhemy 可以进行更新,但没有什么比 isnull 更好的了。请帮忙,因为这对我来说非常重要,而我的 python 知识非常少。也许可以有另一种解决方案如何在没有更新的情况下做到这一点,但对我来说似乎很难。非常感谢您的帮助
我想我今天找到了解决办法。
这正是我需要的:
sql = "INSERT INTO `projections_sample` (`id`,`month`, `revenue`) VALUES (%s,%s, %s) ON DUPLICATE KEY UPDATE month=IF(VALUES(month)IS NULL,month,VALUES(month)),revenue=IF(VALUES(revenue)IS NULL,revenue,VALUES(revenue))"
它使用 pymysql,它只更新 NULL 字段,保留现有记录。但是我不知道这个解决方案有多可靠,但这就是我需要的,这样做对我来说真的很重要
我遇到这样的问题:
我有很多非标准化格式的 cvs 文件。 这是一个例子:
"VarName";"TimeString";"VarValue";"Validity";"Time_ms"
"Data_block_1_HC1_sec_voltage";"02.07.2015 14:16:56";3,740281;1;42187595088,2176
"Data_block_1_TC1.1";"02.07.2015 14:17:56";1319,3;1;42187595782,6042
"Data_block_1_TC1.2";"02.07.2015 14:17:56";1319,8;1;42187595782,6042
"Data_block_1_TCF1.1";"02.07.2015 14:17:56";513,9;1;42187595782,6042
"HC1_HC1_output";"02.07.2015 14:17:56";0;1;42187595782,6042
"Data_block_1_HC1_sec_cur";"02.07.2015 14:17:56";1782,873;1;42187595782,6042
"Data_block_1_HC1_power";"02.07.2015 14:17:56";6,68997;1;42187595782,6273
"HC1_HC1_setpoint";"02.07.2015 14:17:56";1320;1;42187595782,6273
"Data_block_1_HC1_sec_voltage";"02.07.2015 14:17:56";3,74994;1;42187595782,6273
"Data_block_1_TC1.1";"02.07.2015 14:18:56";1319,3;1;42187596477,0023
"Data_block_1_TC1.2";"02.07.2015 14:18:56";1320;1;42187596477,0023
"Data_block_1_TCF1.1";"02.07.2015 14:18:56";514,2;1;42187596477,0023
"HC1_HC1_output";"02.07.2015 14:18:56";0;1;42187596477,0023
"Data_block_1_HC1_sec_cur";"02.07.2015 14:18:56";1779,488;1;42187596477,0023
"Data_block_1_HC1_power";"02.07.2015 14:18:56";6,672971;1;42187596477,0255
"HC1_HC1_setpoint";"02.07.2015 14:18:56";1320;1;42187596477,0255
恰好有 8 个变量具有相同的时间戳。
这是我用来形成数据的代码:
import csv
from collections import defaultdict
import os
from glob import glob
from datetime import datetime
from sqlalchemy import create_engine
from sqlalchemy import Table, Column, Integer, String, MetaData, ForeignKey
i=1
engine = create_engine('mysql+pymysql://root@localhost/test',echo=False)
conn = engine.connect()
metadata = MetaData(bind=engine)
data_dir = ''
sql_values_list = list()
for file_name in glob(os.path.join(data_dir, 'HC10.csv')):
with open(file_name, 'rt') as f:
#data_file=open('HC10.csv','rU')
reader=csv.DictReader(f,delimiter=';', quotechar='"')
data=defaultdict(lambda:[None,None,None,None,None,None,None,None])
fruit_to_index = defaultdict(lambda:None,{'Data_block_1_HC1_sec_voltage':0,'Data_block_1_TC1.1':1,'Data_block_1_TC1.2':2,'Data_block_1_TCF1.1':3,'HC1_HC1_output':4,'Data_block_1_HC1_sec_cur':5,'Data_block_1_HC1_power':6,'HC1_HC1_setpoint':7})
for row in reader:
if fruit_to_index[row['VarName']] != None:
data[datetime.strptime(row['TimeString'], '%d.%m.%Y %H:%M:%S')][fruit_to_index[row['VarName']]] = float(row['VarValue'].replace(',', '.'))
i=i+1
if i==2:
for key, value in data.items():
if value !=
sql_values_list.append((key, value[0], value[1], value[2], value[3], value[4], value[5], value[6], value[7]))
i=3
print(sql_values_list)
f.close()
数据输出这个字典:
defaultdict(<function <lambda> at 0x038C26F0>, {datetime.datetime(2015, 8, 15, 15, 1, 33): [4.034867, 1324.1, 1325.0, 533.7, 0.0, 1922.136, 7.755563, 1325.0], datetime.datetime(2015, 8, 15, 15, 4, 33): [4.034867, 1324.1, 1325.0, 533.7, 0.0, 1930.6, 7.794376, 1325.0],....
这是我的问题:
由于一个时间戳及其变量可以在多个文件中(每个文件大约有 12 000 行)并且有超过 300 个文件,我不想一次处理它们。它的记忆消耗很大,这对我没有太大帮助,因为新的时间戳每分钟都会附加到新文件中。为了更好地理解这里有一个例子:
假设我处理了一个文件(大约 12000 行)并且一个时间戳的输出可能是这样的:datetime.datetime(2015, 8, 15, 15, 1, 33): [4.034867, NULL, NULL, NULL, 0.0, 1922.136, NULL, 1325.0]
我想把它插入mysql。下次我 运行 将脚本放在不同的文件上。我的输出如下:
datetime.datetime(2015, 8, 15, 15, 1, 33): [NULL, 1324.1, 1325.0, 533.7, NULL, NULL, 7.755563, NULL],
请注意,一个时间戳总是有 8 个变量,因此每个时间戳不能有两个不同的值。
更新后的结果应该是:
datetime.datetime(2015, 8, 15, 15, 1, 33): [4.034867, 1324.1, 1325.0, 533.7, 0.0, 1922.136, 7.755563, 1325.0],
我需要为给定时间戳(数据库中的主键)更新 mysql 数据库,但只更新 NULL 字段。因为在偶然更新时我会用 NULL 值重写存储的变量。
我知道有一个名为 ISNULL
或 coalesce
的 sql 声明。
但我必须在 python 中执行此操作。我正在使用 vesrion 3.4 和 pyMysql 作为 sqlalchemy 的连接器。我知道 sqlalclhemy 可以进行更新,但没有什么比 isnull 更好的了。请帮忙,因为这对我来说非常重要,而我的 python 知识非常少。也许可以有另一种解决方案如何在没有更新的情况下做到这一点,但对我来说似乎很难。非常感谢您的帮助
我想我今天找到了解决办法。 这正是我需要的:
sql = "INSERT INTO `projections_sample` (`id`,`month`, `revenue`) VALUES (%s,%s, %s) ON DUPLICATE KEY UPDATE month=IF(VALUES(month)IS NULL,month,VALUES(month)),revenue=IF(VALUES(revenue)IS NULL,revenue,VALUES(revenue))"
它使用 pymysql,它只更新 NULL 字段,保留现有记录。但是我不知道这个解决方案有多可靠,但这就是我需要的,这样做对我来说真的很重要