python 多行正则表达式以获取括号中的可选组
python multiline regex to get optional group in parentheses
我正在努力编写一个正则表达式来基本上为 tables
获得 4 个组
- Table 姓名table_v1
- Table table name
之后第一个 () 列
- () 中的主键值
- 如果存在 CLUSTERING ORDER,则 () 中的可选值
我试过了,除了无法获取集群订单值外,大部分都有效。
re.compile("CREATE\s+TABLE\s+(?:[a-z][a-z0-9_]*).*?((?:[a-z][a-z0-9_"]*)).*?(\(.*?\)) WITH.*?(\(.*?\)).*?;").findall(string_below)
这里是正则表达式上面试图 运行 的字符串。
CREATE TABLE abcdeg.table_v1 (
"id" text,
"obj" text,
"version" bigint,
output text,
server text,
PRIMARY KEY ("id", "obj", "version")
) WITH CLUSTERING ORDER BY ("id" ASC, "version" DESC)
AND bloom_filter_fp_chance = 0.1
AND comment = ''
AND default_time_to_live = 0
AND gc_grace_seconds = 864000
AND max_index_interval = 2048
AND min_index_interval = 128
AND read_repair_chance = 0.0
AND speculative_retry = '99.0PERCENTILE';
CREATE TABLE abcdeg.result_v1 (
"id" text,
"obj" text,
time int,
PRIMARY KEY (("id", "obj"))
) WITH bloom_filter_fp_chance = 0.1
AND comment = ''
AND default_time_to_live = 0
AND gc_grace_seconds = 864000
AND max_index_interval = 2048
AND speculative_retry = '99.0PERCENTILE';
CREATE TABLE abcdeg.result_v2 (
"id" text PRIMARY KEY,
"obj" text,
time int
) WITH bloom_filter_fp_chance = 0.1
AND comment = ''
AND default_time_to_live = 0
AND gc_grace_seconds = 864000
AND max_index_interval = 2048
AND speculative_retry = '99.0PERCENTILE';
我无法在 python 中对此进行测试,但它在演示中有效。将 table 名称捕获到第 1 组,将字段捕获到第 2 组,将主键(即使有双括号)捕获到第 3 组,如果存在聚类顺序,则捕获到 第 5 组
CREATE\sTABLE\s.+?\.(\w+)\s\(\n?(.+?)\n\s*PRIMARY\sKEY\s\(+([^)]*)\)+.*?(CLUSTERING\sORDER\sBY\s\(([^)]+)\)|;)
我可以编写一个正则表达式来正确处理这两个 SQL-s。然而,这个解决方案很脆弱且难以理解。它很脆弱,因为可能还有其他 SQL 我们尚未考虑的构造。这很难理解,因为,你知道,看看这个:
CREATE\s+TABLE[^.]*\.(\S*)\s*\((.*?)PRIMARY KEY \(?\(([^)]*)\)\)?\s*\)\s*(?:WITH CLUSTERING ORDER BY \(([^)]*)\))?
诀窍是说出你的意思。我没有使用惰性量词,而是使用否定字符 类:\([^)]\)
。这样我们就可以有效地检索括号中的内容,而不会出现意外匹配。
我建议采取不同的方法。您可以使用 SQL 解析器。 SQLParse 看起来很有希望。不过我还没有用过它。
我正在努力编写一个正则表达式来基本上为 tables
获得 4 个组- Table 姓名table_v1
- Table table name 之后第一个 () 列
- () 中的主键值
- 如果存在 CLUSTERING ORDER,则 () 中的可选值
我试过了,除了无法获取集群订单值外,大部分都有效。
re.compile("CREATE\s+TABLE\s+(?:[a-z][a-z0-9_]*).*?((?:[a-z][a-z0-9_"]*)).*?(\(.*?\)) WITH.*?(\(.*?\)).*?;").findall(string_below)
这里是正则表达式上面试图 运行 的字符串。
CREATE TABLE abcdeg.table_v1 (
"id" text,
"obj" text,
"version" bigint,
output text,
server text,
PRIMARY KEY ("id", "obj", "version")
) WITH CLUSTERING ORDER BY ("id" ASC, "version" DESC)
AND bloom_filter_fp_chance = 0.1
AND comment = ''
AND default_time_to_live = 0
AND gc_grace_seconds = 864000
AND max_index_interval = 2048
AND min_index_interval = 128
AND read_repair_chance = 0.0
AND speculative_retry = '99.0PERCENTILE';
CREATE TABLE abcdeg.result_v1 (
"id" text,
"obj" text,
time int,
PRIMARY KEY (("id", "obj"))
) WITH bloom_filter_fp_chance = 0.1
AND comment = ''
AND default_time_to_live = 0
AND gc_grace_seconds = 864000
AND max_index_interval = 2048
AND speculative_retry = '99.0PERCENTILE';
CREATE TABLE abcdeg.result_v2 (
"id" text PRIMARY KEY,
"obj" text,
time int
) WITH bloom_filter_fp_chance = 0.1
AND comment = ''
AND default_time_to_live = 0
AND gc_grace_seconds = 864000
AND max_index_interval = 2048
AND speculative_retry = '99.0PERCENTILE';
我无法在 python 中对此进行测试,但它在演示中有效。将 table 名称捕获到第 1 组,将字段捕获到第 2 组,将主键(即使有双括号)捕获到第 3 组,如果存在聚类顺序,则捕获到 第 5 组
CREATE\sTABLE\s.+?\.(\w+)\s\(\n?(.+?)\n\s*PRIMARY\sKEY\s\(+([^)]*)\)+.*?(CLUSTERING\sORDER\sBY\s\(([^)]+)\)|;)
我可以编写一个正则表达式来正确处理这两个 SQL-s。然而,这个解决方案很脆弱且难以理解。它很脆弱,因为可能还有其他 SQL 我们尚未考虑的构造。这很难理解,因为,你知道,看看这个:
CREATE\s+TABLE[^.]*\.(\S*)\s*\((.*?)PRIMARY KEY \(?\(([^)]*)\)\)?\s*\)\s*(?:WITH CLUSTERING ORDER BY \(([^)]*)\))?
诀窍是说出你的意思。我没有使用惰性量词,而是使用否定字符 类:\([^)]\)
。这样我们就可以有效地检索括号中的内容,而不会出现意外匹配。
我建议采取不同的方法。您可以使用 SQL 解析器。 SQLParse 看起来很有希望。不过我还没有用过它。