如何匹配使用正则表达式来匹配具有特定开始和结束模式的多行文本

Question

在 Python 正则表达式的帮助下，我试图提取 [..] 之后并以 ;; 开头的所有行特点。请参阅下面的示例

sample_str = '''[TITLE]

[OPTIONS]
;;Options            Value
;;------------------ ------------
FLOW_UNITS           CFS
<MORE TEXT>

[PATTERNS]
;;Name           Type       Multipliers
;;-------------- ---------- -----------
;Daily pattern generated from time series '2-166:2-165 (obs)'.  Average value was 0.0485 MGD.
2-166:2-165_(obs)_Daily DAILY      1.011 1.008 1.06  0.908 1.072 0.998 0.942
<MORE TEXT>

[COORDINATES]
;;Node           X-Coord          Y-Coord         
;;-------------- ---------------- ----------------
<MORE TEXT>

[JUNCTIONS]
;;               Invert     Max.       Init.      Surcharge  Ponded    
;;Name           Elev.      Depth      Depth      Depth      Area      
;;-------------- ---------- ---------- ---------- ---------- ----------
1-1              837.85     15.25      0          0          0         
<MORE TEXT>  

[REPORT]
INPUT      YES
CONTROLS   NO
<MORE TEXT>
'''

我想要一个像

这样的列表

expected_result = [';;Options            Value\n;;------------------ ------------', ';;Name           Type       Multipliers\n;;-------------- ---------- -----------', ..]

我只能在 re.findall(r"(?<=\]\n);;.*", sample_str) 之前获得第一行。尝试通过像 re.findall(r"(?<=\]\n);;.*\n;;.*", sample_str, re.MULTILINE) 添加 \n 来添加更多行模式不起作用，因为我想要的文本模式不统一。我尝试使用 re.multiline 来搜索 -\n 之前的所有文本，但我无法让它像 re.findall(r"(?<=\]\n);;.*-$", sample_str, re.MULTILINE) 一样工作。

有人可以帮我吗！

Answer 1

就其价值而言，完全无需正则表达式即可轻松实现：

input_str = '''...'''

flag = False
output = []

for line in input_str.splitlines():
    if not flag and line.startswith('[') and line.endswith(']'):
        flag = True
    elif flag and line.startswith(';;'):
        output.append(line)
    else:
        flag = False

print(output)

请注意，行尾会丢失，因为 .splitlines() 吃掉了它们。

如果输入来自一个文件，那将是直截了当的：

def parse_file(filename):
    flag = False
    with open(filename, 'r', encoding='utf8') as f:
        for line in f:
            if not flag and line.startswith('[') and line.endswith(']'):
                flag = True
            elif flag and line.startswith(';;'):
                yield line
            else:
                flag = False

Answer 2

你可以这样使用：

re.findall(r"^\[.*\]\n+((?:;;.*\n+)+)", sample_str, re.M)

Here is the explanation of the expression

编辑：添加了模式在行首开始的约束。感谢您关注@Wiktor Stribiżew

如何匹配使用正则表达式来匹配具有特定开始和结束模式的多行文本

How do I match use regex to match multi-line text with specific starting and ending patterns

python

regex

multiline

regex-lookarounds