如何处理 Python / Pandas 中的 "Object of type 'Timestamp' is not JSON serializable"?

How do I handle "Object of type 'Timestamp' is not JSON serializable" in Python / Pandas?

前言:Python 非常新,但感谢 SO 的帮助!

下面是一个代码片段,我试图在其中对 MSSQL 服务器 table 执行 SQL 查询,然后 post 它返回到 Google 床单。我能够检索数据和 headers,而且我想我几乎已经弄明白了。但是,我在某些列的日期时间格式方面遇到了一些麻烦。我收到的错误是:

Traceback (most recent call last):
  File "modelhome.py", line 153, in <module>
    valueInputOption=value_input_option, insertDataOption=insert_data_option, body=value_range_body)
  File "C:\ProgramData\Anaconda3\lib\site-packages\googleapiclient\discovery.py", line 785, in method
    actual_path_params, actual_query_params, body_value)
  File "C:\ProgramData\Anaconda3\lib\site-packages\googleapiclient\model.py", line 151, in request
    body_value = self.serialize(body_value)
  File "C:\ProgramData\Anaconda3\lib\site-packages\googleapiclient\model.py", line 260, in serialize
    return json.dumps(body_value)
  File "C:\ProgramData\Anaconda3\lib\json\__init__.py", line 231, in dumps
    return _default_encoder.encode(obj)
  File "C:\ProgramData\Anaconda3\lib\json\encoder.py", line 199, in encode
    chunks = self.iterencode(o, _one_shot=True)
  File "C:\ProgramData\Anaconda3\lib\json\encoder.py", line 257, in iterencode
    return _iterencode(o, 0)
  File "C:\ProgramData\Anaconda3\lib\json\encoder.py", line 180, in default
    o.__class__.__name__)
TypeError: Object of type 'Timestamp' is not JSON serializable

代码片段

"""Execute SQL Statement, create table, and append back to Google Sheet"""
# SQL Server Connection
server = '[SQLServerIP]'
database = '[SQLServerDatabase]'
username = '[SQLServerUsername]'
password = '[SQLServerPassword]'
cnxn = pyodbc.connect('Driver={ODBC Driver 13 for SQL Server};SERVER=' +
                      server+';DATABASE='+database+';UID='+username+';PWD='+password)

# Sample SQL Query to get Data
sql = 'select * from tblName'
cursor = cnxn.cursor()
cursor.execute(sql)
list(cursor.fetchall())

# Pandas reading values from SQL query, and building table
sqlData = pandas.read_sql_query(sql, cnxn)

# Pandas building dataframe, and exporting .xlsx copy of table
df = DataFrame(data=sqlData)

df.to_excel('tblName.xlsx',
            header=True, index=False)
dfHeaders = df.columns.values.tolist()
dfHeadersArray = [dfHeaders]
dfData = df.values.tolist()
dfDataFormatted = [dfData]
"""Writing to Google Sheet Range"""
print(dfHeaders)
print(dfData)

# How the input data should be interpreted.
value_input_option = 'USER_ENTERED'  # TODO: Update placeholder value.

# How the input data should be inserted.
insert_data_option = 'OVERWRITE'  # TODO: Update placeholder value.

value_range_body = {
    "majorDimension": "ROWS",
    "values":
    dfHeadersArray + dfDataFormatted
}

request = service.spreadsheets().values().append(spreadsheetId=spreadsheetId, range=SQLRangeName,
                                                 valueInputOption=value_input_option, insertDataOption=insert_data_option, body=value_range_body)
response = request.execute()

dfData内,正常的字符串是这样的:

日期时间条目如下所示:

我的理解是 JSON 没有处理这种数据类型的本机方法,它必须作为异常处理。有没有一种方法可以序列化数据集的所有时间戳部分而不必指定哪些列是日期时间?

任何 help/advice 你们都可以提供,我们将不胜感激。

谢谢!

最终解决方案更新 - 图片来源:@chrisheinze

为 datettime 添加以下数据框建模 headers 效果很好。

# Pandas reading values from SQL query, and building table
sqlData = pandas.read_sql_query(sql, cnxn)

# Pandas building dataframe, and exporting .xlsx copy of table
df = DataFrame(data=sqlData)

# Google Sheets API can't handle date/time. Below converts certain headers to formatted text strings.
df['Date'] = df['Date'].dt.strftime('%m/%d/%Y')
df['DateTime'] = df['DateTime'].dt.strftime('%m/%d/%Y %H:%M:%S')
df['RDD'] = df['RDD'].dt.strftime('%m/%d/%Y')
df['DateTimeErrorTable'] = df['DateTimeErrorTable'].dt.strftime('%m/%d/%Y %H:%M:%S')
df['DateTimeSuccessTable'] = df['DateTimeSuccessTable'].dt.strftime('%m/%d/%Y %H:%M:%S')
df['WorkedOn'] = df['WorkedOn'].dt.strftime('%m/%d/%Y %H:%M:%S')
df['EmailSentOn'] = df['EmailSentOn'].dt.strftime('%m/%d/%Y %H:%M:%S')

希望对其他人有所帮助!

表格 API 不知道如何处理 Python datetime/timestamp。您需要将其转换为 str.

要转换 pandas 系列,请使用 pd.Series.dt.strftime()

如果只是需要转换的单个值,则使用日期时间的 strftime()

编辑以在评论中回答您的问题:

# To convert a datetime column to a str. 

df['date_column'] = df['date_column'].dt.strftime('%Y%m%d%H%M%S')

为了提供更多信息,strftime 表示 "string format datetime"。这允许您将 datetime/timestamp 值格式化为 str。 '%Y%m%d%H%M%S' 是您想要的输出。在我的示例中,您的约会结果为“20180309152303”。另一个例子是 '%m/%d/%Y %H:%M:%S',它会给你“03/09/2018 15:23:03”。因此,将我的示例中的 'date_column' 替换为日期列的名称,它将转换为与 API 兼容并理解 Google 中的 format-wise 的 str床单。

如果您无法分辨哪一列是 日期,请使用此函数:

import numpy as np

def cast_for_gsheets(df):
    # casting as string if not serializable
    for column, dt in zip(df.columns, df.dtypes):
        if dt.type not in [
            np.int64,
            np.float_,
            np.bool_,
        ]:
            df.loc[:, column] = df[column].astype(str)
    return df

df = cast_for_gsheets(DataFrame(data=sqlData))