Python 3 unicode转义

Question

我有一个脚本，是根据 学习 Python 取证 一书中的蓝图构建的。该脚本将遍历用户指定的目录并收集目录中每个文件的元数据。结果将保存到 sqlite 数据库，并写入 CSV 或 HTML 文件。

该脚本最初是在 Python 2.7.15 中编写的。我正在尝试更新 Python 3.7 的代码。但是，摄取目录函数中有一行给我带来了问题。

ingestDirectory 函数如下所示：

def ingestDirectory(cur, source, custodian_id):    
    count = 0
    for root, folders, files in os.walk(source):
        for file_name in files:
            meta_data = dict()
            try:
                meta_data['file_name'] = file_name
                meta_data['file_path'] = os.path.join(root, file_name)
                meta_data['extension'] = os.path.splitext(file_name)[-1]

                file_stats = os.stat(meta_data['file_path'])
                meta_data['mode'] = oct(file_stats.st_mode)
                meta_data['inode'] = int(file_stats.st_ino)
                meta_data['file_size'] = int(file_stats.st_size)
                meta_data['atime'] = formatTimestamp(file_stats.st_atime)
                meta_data['mtime'] = formatTimestamp(file_stats.st_mtime)
                meta_data['ctime'] = formatTimestamp(file_stats.st_ctime)
            except Exception as e:
                logging.error('Could not gather data for file: ' + meta_data['file_path'] + e.__str__())
            meta_data['custodian'] = custodian_id
            columns = '","'.join(meta_data.keys())
            values = '","'.join(str(x).encode('string_escape') for x in meta_data.values())
            sql = 'INSERT INTO Files ("' + columns + '") VALUES ("' + values + '")'
            cur.execute(sql)
            count += 1

给我错误的行是这样的：

values = '","'.join(str(x).encode('string_escape') for x in meta_data.values())

此行用于在将数据写入数据库之前处理在 metadata.values 中找到的任何字符串转义字符。

当我尝试运行 Python 3 中的此代码时，我收到有关无法识别的编解码器的错误。我在 Stack Overflow 上做了一些研究，发现 string_escape 在 Python 中被替换为 unicode-escape 3.

我对 Python 3 和 Unicode 还很陌生。我的问题是：

如何更新上面的行，使其使用 unicode-escape 而不是 string_escape 并产生与 Python 2.7 代码相同的结果？

如有任何帮助，我们将不胜感激！我已经为此工作了好几天，我尝试的每一个解决方案都会导致更多的错误代码或损坏的输出文件。

Answer 1

您正在该段代码中生成 SQL，转义是为了尝试生成有效的 SQL。这是一个非常可怜的人试图避免 SQL 注入。它不是很有效，也不需要，因为数据库驱动程序已经知道如何以更安全的方式处理这个问题！

对于 SQL 数据库，将值放入 SQL 参数的正确方法。 SQL 参数由两个部分组成：占位符和分别传递给 .execute() 方法以便数据库干净处理的值。 sqlite3库也不例外，见cursor.execute() method for details。对于您的情况，您可以使用 named 占位符：

columns = [f'''"{name.replace('"', '""')}"''' for name in meta_data]
placeholders = [f':{name}' for name in meta_data]
sql = f'INSERT INTO Files ({", ".join(columns)}) VALUES ({", ".join(placeholders)})'    
cur.execute(sql, meta_data)

注意 meta_data 作为第二个参数传递；数据库获取每个 :name 占位符并从 meta_data 字典中获取该占位符的值。

我还正确地格式化了列名，在它们两边加上双引号并将名称中的任何 " 个字符加倍；请参阅 SQLite keyword documentation:

'keyword'       A keyword in single quotes is a string literal.
"keyword"       A keyword in double-quotes is an identifier.

您的代码对这些列名称进行了硬编码，其中 none 是保留 SQL 关键字，因此它们并不真正需要这种保护，但这仍然是一个很好的做法。

对于您的代码，其中 meta_data 具有固定数量的键，上面构建了这个 sql 字符串：

>>> columns = [f'''"{name.replace('"', '""')}"''' for name in meta_data]
>>> placeholders = [f':{name}' for name in meta_data]
>>> sql = f'INSERT INTO Files ({", ".join(columns)}) VALUES ({", ".join(placeholders)})'
>>> from pprint import pprint
>>> pprint(sql)
('INSERT INTO Files ("file_name", "file_path", "extension", "mode", "inode", '
 '"file_size", "atime", "mtime", "ctime") VALUES (:file_name, :file_path, '
 ':extension, :mode, :inode, :file_size, :atime, :mtime, :ctime)')

我还会更改您记录错误的方式，而不是

logging.error('Could not gather data for file: ' + meta_data['file_path'] + e.__str__())

我会用

logging.exception('Could not gather data for file: %s', meta_data['file_path'])

并将错误收集留给日志框架。即使您包含异常对象，也请使用 str(e) 或 %s 占位符。

Python 3 unicode转义

Python 3 unicode-escape

python

sqlite

unicode-escapes

python-3.7