如何匹配使用正则表达式来匹配具有特定开始和结束模式的多行文本
How do I match use regex to match multi-line text with specific starting and ending patterns
在 Python 正则表达式的帮助下,我试图提取 [..] 之后并以 ;; 开头的所有行特点。请参阅下面的示例
sample_str = '''[TITLE]
[OPTIONS]
;;Options Value
;;------------------ ------------
FLOW_UNITS CFS
<MORE TEXT>
[PATTERNS]
;;Name Type Multipliers
;;-------------- ---------- -----------
;Daily pattern generated from time series '2-166:2-165 (obs)'. Average value was 0.0485 MGD.
2-166:2-165_(obs)_Daily DAILY 1.011 1.008 1.06 0.908 1.072 0.998 0.942
<MORE TEXT>
[COORDINATES]
;;Node X-Coord Y-Coord
;;-------------- ---------------- ----------------
<MORE TEXT>
[JUNCTIONS]
;; Invert Max. Init. Surcharge Ponded
;;Name Elev. Depth Depth Depth Area
;;-------------- ---------- ---------- ---------- ---------- ----------
1-1 837.85 15.25 0 0 0
<MORE TEXT>
[REPORT]
INPUT YES
CONTROLS NO
<MORE TEXT>
'''
我想要一个像
这样的列表
expected_result = [';;Options Value\n;;------------------ ------------', ';;Name Type Multipliers\n;;-------------- ---------- -----------', ..]
我只能在 re.findall(r"(?<=\]\n);;.*", sample_str)
之前获得第一行。尝试通过像 re.findall(r"(?<=\]\n);;.*\n;;.*", sample_str, re.MULTILINE)
添加 \n
来添加更多行模式不起作用,因为我想要的文本模式不统一。我尝试使用 re.multiline
来搜索 -\n
之前的所有文本,但我无法让它像 re.findall(r"(?<=\]\n);;.*-$", sample_str, re.MULTILINE)
一样工作。
有人可以帮我吗!
就其价值而言,完全无需正则表达式即可轻松实现:
input_str = '''...'''
flag = False
output = []
for line in input_str.splitlines():
if not flag and line.startswith('[') and line.endswith(']'):
flag = True
elif flag and line.startswith(';;'):
output.append(line)
else:
flag = False
print(output)
请注意,行尾会丢失,因为 .splitlines()
吃掉了它们。
如果输入来自一个文件,那将是直截了当的:
def parse_file(filename):
flag = False
with open(filename, 'r', encoding='utf8') as f:
for line in f:
if not flag and line.startswith('[') and line.endswith(']'):
flag = True
elif flag and line.startswith(';;'):
yield line
else:
flag = False
你可以这样使用:
re.findall(r"^\[.*\]\n+((?:;;.*\n+)+)", sample_str, re.M)
Here is the explanation of the expression
编辑:添加了模式在行首开始的约束。感谢您关注@Wiktor Stribiżew
在 Python 正则表达式的帮助下,我试图提取 [..] 之后并以 ;; 开头的所有行特点。请参阅下面的示例
sample_str = '''[TITLE]
[OPTIONS]
;;Options Value
;;------------------ ------------
FLOW_UNITS CFS
<MORE TEXT>
[PATTERNS]
;;Name Type Multipliers
;;-------------- ---------- -----------
;Daily pattern generated from time series '2-166:2-165 (obs)'. Average value was 0.0485 MGD.
2-166:2-165_(obs)_Daily DAILY 1.011 1.008 1.06 0.908 1.072 0.998 0.942
<MORE TEXT>
[COORDINATES]
;;Node X-Coord Y-Coord
;;-------------- ---------------- ----------------
<MORE TEXT>
[JUNCTIONS]
;; Invert Max. Init. Surcharge Ponded
;;Name Elev. Depth Depth Depth Area
;;-------------- ---------- ---------- ---------- ---------- ----------
1-1 837.85 15.25 0 0 0
<MORE TEXT>
[REPORT]
INPUT YES
CONTROLS NO
<MORE TEXT>
'''
我想要一个像
这样的列表expected_result = [';;Options Value\n;;------------------ ------------', ';;Name Type Multipliers\n;;-------------- ---------- -----------', ..]
我只能在 re.findall(r"(?<=\]\n);;.*", sample_str)
之前获得第一行。尝试通过像 re.findall(r"(?<=\]\n);;.*\n;;.*", sample_str, re.MULTILINE)
添加 \n
来添加更多行模式不起作用,因为我想要的文本模式不统一。我尝试使用 re.multiline
来搜索 -\n
之前的所有文本,但我无法让它像 re.findall(r"(?<=\]\n);;.*-$", sample_str, re.MULTILINE)
一样工作。
有人可以帮我吗!
就其价值而言,完全无需正则表达式即可轻松实现:
input_str = '''...'''
flag = False
output = []
for line in input_str.splitlines():
if not flag and line.startswith('[') and line.endswith(']'):
flag = True
elif flag and line.startswith(';;'):
output.append(line)
else:
flag = False
print(output)
请注意,行尾会丢失,因为 .splitlines()
吃掉了它们。
如果输入来自一个文件,那将是直截了当的:
def parse_file(filename):
flag = False
with open(filename, 'r', encoding='utf8') as f:
for line in f:
if not flag and line.startswith('[') and line.endswith(']'):
flag = True
elif flag and line.startswith(';;'):
yield line
else:
flag = False
你可以这样使用:
re.findall(r"^\[.*\]\n+((?:;;.*\n+)+)", sample_str, re.M)
Here is the explanation of the expression
编辑:添加了模式在行首开始的约束。感谢您关注@Wiktor Stribiżew