python 多行正则表达式以获取括号中的可选组

Question

我正在努力编写一个正则表达式来基本上为 tables

获得 4 个组

Table 姓名table_v1
Table table name
() 中的主键值
如果存在 CLUSTERING ORDER，则 () 中的可选值

我试过了，除了无法获取集群订单值外，大部分都有效。

re.compile("CREATE\s+TABLE\s+(?:[a-z][a-z0-9_]*).*?((?:[a-z][a-z0-9_"]*)).*?(\(.*?\)) WITH.*?(\(.*?\)).*?;").findall(string_below)

这里是正则表达式上面试图运行的字符串。

CREATE TABLE abcdeg.table_v1 (
    "id" text,
    "obj" text,
    "version" bigint,
    output text,
    server text,
    PRIMARY KEY ("id", "obj", "version")
) WITH CLUSTERING ORDER BY ("id" ASC, "version" DESC)
    AND bloom_filter_fp_chance = 0.1
    AND comment = ''
    AND default_time_to_live = 0
    AND gc_grace_seconds = 864000
    AND max_index_interval = 2048
    AND min_index_interval = 128
    AND read_repair_chance = 0.0
    AND speculative_retry = '99.0PERCENTILE';

CREATE TABLE abcdeg.result_v1 (
    "id" text,
    "obj" text,
    time int,
    PRIMARY KEY (("id", "obj"))
) WITH bloom_filter_fp_chance = 0.1
    AND comment = ''
    AND default_time_to_live = 0
    AND gc_grace_seconds = 864000
    AND max_index_interval = 2048
    AND speculative_retry = '99.0PERCENTILE';

CREATE TABLE abcdeg.result_v2 (
    "id" text PRIMARY KEY,
    "obj" text,
    time int
) WITH bloom_filter_fp_chance = 0.1
    AND comment = ''
    AND default_time_to_live = 0
    AND gc_grace_seconds = 864000
    AND max_index_interval = 2048
    AND speculative_retry = '99.0PERCENTILE';

Answer 1

我无法在 python 中对此进行测试，但它在演示中有效。将 table 名称捕获到第 1 组，将字段捕获到第 2 组，将主键（即使有双括号）捕获到第 3 组，如果存在聚类顺序，则捕获到 第 5 组

CREATE\sTABLE\s.+?\.(\w+)\s\(\n?(.+?)\n\s*PRIMARY\sKEY\s\(+([^)]*)\)+.*?(CLUSTERING\sORDER\sBY\s\(([^)]+)\)|;)

Demo

Answer 2

我可以编写一个正则表达式来正确处理这两个 SQL-s。然而，这个解决方案很脆弱且难以理解。它很脆弱，因为可能还有其他 SQL 我们尚未考虑的构造。这很难理解，因为，你知道，看看这个：

CREATE\s+TABLE[^.]*\.(\S*)\s*\((.*?)PRIMARY KEY \(?\(([^)]*)\)\)?\s*\)\s*(?:WITH CLUSTERING ORDER BY \(([^)]*)\))?

诀窍是说出你的意思。我没有使用惰性量词，而是使用否定字符类：\([^)]\)。这样我们就可以有效地检索括号中的内容，而不会出现意外匹配。

Demo here.

我建议采取不同的方法。您可以使用 SQL 解析器。 SQLParse 看起来很有希望。不过我还没有用过它。

python 多行正则表达式以获取括号中的可选组

python multiline regex to get optional group in parentheses

regex

regex-group

python-3.x