python 多行正则表达式以获取括号中的可选组

python multiline regex to get optional group in parentheses

我正在努力编写一个正则表达式来基本上为 tables

获得 4 个组
  1. Table 姓名table_v1
  2. Table table name
  3. 之后第一个 () 列
  4. () 中的主键值
  5. 如果存在 CLUSTERING ORDER,则 () 中的可选值

我试过了,除了无法获取集群订单值外,大部分都有效。

编辑:HERE IS A FAILING DEMO

re.compile("CREATE\s+TABLE\s+(?:[a-z][a-z0-9_]*).*?((?:[a-z][a-z0-9_"]*)).*?(\(.*?\)) WITH.*?(\(.*?\)).*?;").findall(string_below)

这里是正则表达式上面试图 运行 的字符串。

CREATE TABLE abcdeg.table_v1 (
    "id" text,
    "obj" text,
    "version" bigint,
    output text,
    server text,
    PRIMARY KEY ("id", "obj", "version")
) WITH CLUSTERING ORDER BY ("id" ASC, "version" DESC)
    AND bloom_filter_fp_chance = 0.1
    AND comment = ''
    AND default_time_to_live = 0
    AND gc_grace_seconds = 864000
    AND max_index_interval = 2048
    AND min_index_interval = 128
    AND read_repair_chance = 0.0
    AND speculative_retry = '99.0PERCENTILE';

CREATE TABLE abcdeg.result_v1 (
    "id" text,
    "obj" text,
    time int,
    PRIMARY KEY (("id", "obj"))
) WITH bloom_filter_fp_chance = 0.1
    AND comment = ''
    AND default_time_to_live = 0
    AND gc_grace_seconds = 864000
    AND max_index_interval = 2048
    AND speculative_retry = '99.0PERCENTILE';

CREATE TABLE abcdeg.result_v2 (
    "id" text PRIMARY KEY,
    "obj" text,
    time int
) WITH bloom_filter_fp_chance = 0.1
    AND comment = ''
    AND default_time_to_live = 0
    AND gc_grace_seconds = 864000
    AND max_index_interval = 2048
    AND speculative_retry = '99.0PERCENTILE';

我无法在 python 中对此进行测试,但它在演示中有效。将 table 名称捕获到第 1 组,将字段捕获到第 2 组,将主键(即使有双括号)捕获到第 3 组,如果存在聚类顺序,则捕获到 第 5 组

CREATE\sTABLE\s.+?\.(\w+)\s\(\n?(.+?)\n\s*PRIMARY\sKEY\s\(+([^)]*)\)+.*?(CLUSTERING\sORDER\sBY\s\(([^)]+)\)|;)

Demo

我可以编写一个正则表达式来正确处理这两个 SQL-s。然而,这个解决方案很脆弱且难以理解。它很脆弱,因为可能还有其他 SQL 我们尚未考虑的构造。这很难理解,因为,你知道,看看这个:

CREATE\s+TABLE[^.]*\.(\S*)\s*\((.*?)PRIMARY KEY \(?\(([^)]*)\)\)?\s*\)\s*(?:WITH CLUSTERING ORDER BY \(([^)]*)\))?

诀窍是说出你的意思。我没有使用惰性量词,而是使用否定字符 类:\([^)]\)。这样我们就可以有效地检索括号中的内容,而不会出现意外匹配。

Demo here.

我建议采取不同的方法。您可以使用 SQL 解析器。 SQLParse 看起来很有希望。不过我还没有用过它。