试图摆脱 python 正则表达式中的尾随空格
Trying to get rid of trailing spaces in python regex
我在 Python REGEX 中使用了一个 CSV。我需要在 CSV 的最后一个字段中提取值,但我在 regex101.com(顺便说一句,很棒的页面)中遇到了问题。
几个示例行:
,11/12/2017,00-87-67 34849444,-27.00,ITEMRECEIVED,H2G2 929613292012071217 REF
,02/01/2018,00-87-68 58493922,-1110.79,ITEMSENT,MIL P01 WOOLLIES 9221234545 DEG
我需要使用此正则表达式捕获最后的 "MEMO" 字段:
(?:[^\,]*\,){5}(?P<CompanyName>[^\s].*)\s{4,19}(?P<Reference>\S{1,18})\s{1,11}(?P<Type>\w{3})
我得到的是:
CompanyName Reference Type
----------- ----------- ----
'H2G2 ' '929613292012071217' 'REF'
'MIL P01 WOOLLIES ' '9221234545' 'DEG'
看起来不多,但是我怎样才能让正则表达式 trim CompanyName 中的尾随空格,以便我得到以下内容?
CompanyName Reference Type
----------- ----------- ----
'H2G2' '929613292012071217' 'REF'
'MIL P01 WOOLLIES' '9221234545' 'DEG'
提前致谢,
安静的莱尼
将您的正则表达式更改为:
(?:[^\,]*\,){5}(?P<CompanyName>[^\s].*\S)\s{4,19}(?P<Reference>\S{1,18})\s{1,11}(?P<Type>\w{3})
添加\S
基本上意味着在最后一个非空白字符之后不能有更多的空白。
一种方法可能是使用前瞻性 "short-circuit" 通配符(非贪婪),如下所示:
(?P<CompanyName>.*?)(?=\s+\d)
整个模式:
(?:[^\,]*\,){5}(?P<CompanyName>.*?)(?=\s+\d)\s*(?P<Reference>\S{1,18})\s{1,11}(?P<Type>\w{3})
(当然要看你的数据本身的可能性,这里我假设公司名称不能以孤立的数字结尾)
除非我遗漏了什么,只要给这个东西加一个问号就可以了(?P<CompanyName>[^\s].*)
(使量词不贪婪)
例如(?P<CompanyName>[^\s].*)
-> (?P<CompanyName>[^\s].*?)
只需投入我的两分钱 - 你可以使用
,
(?P<CompanyName>\b(?:(?!\d{3,})[A-Z\d ])+\b)\s+
(?P<Reference>\b\d{1,18}\b)\s+
(?P<Type>[A-Z]+)
我在 Python REGEX 中使用了一个 CSV。我需要在 CSV 的最后一个字段中提取值,但我在 regex101.com(顺便说一句,很棒的页面)中遇到了问题。
几个示例行:
,11/12/2017,00-87-67 34849444,-27.00,ITEMRECEIVED,H2G2 929613292012071217 REF
,02/01/2018,00-87-68 58493922,-1110.79,ITEMSENT,MIL P01 WOOLLIES 9221234545 DEG
我需要使用此正则表达式捕获最后的 "MEMO" 字段:
(?:[^\,]*\,){5}(?P<CompanyName>[^\s].*)\s{4,19}(?P<Reference>\S{1,18})\s{1,11}(?P<Type>\w{3})
我得到的是:
CompanyName Reference Type
----------- ----------- ----
'H2G2 ' '929613292012071217' 'REF'
'MIL P01 WOOLLIES ' '9221234545' 'DEG'
看起来不多,但是我怎样才能让正则表达式 trim CompanyName 中的尾随空格,以便我得到以下内容?
CompanyName Reference Type
----------- ----------- ----
'H2G2' '929613292012071217' 'REF'
'MIL P01 WOOLLIES' '9221234545' 'DEG'
提前致谢,
安静的莱尼
将您的正则表达式更改为:
(?:[^\,]*\,){5}(?P<CompanyName>[^\s].*\S)\s{4,19}(?P<Reference>\S{1,18})\s{1,11}(?P<Type>\w{3})
添加\S
基本上意味着在最后一个非空白字符之后不能有更多的空白。
一种方法可能是使用前瞻性 "short-circuit" 通配符(非贪婪),如下所示:
(?P<CompanyName>.*?)(?=\s+\d)
整个模式:
(?:[^\,]*\,){5}(?P<CompanyName>.*?)(?=\s+\d)\s*(?P<Reference>\S{1,18})\s{1,11}(?P<Type>\w{3})
(当然要看你的数据本身的可能性,这里我假设公司名称不能以孤立的数字结尾)
除非我遗漏了什么,只要给这个东西加一个问号就可以了(?P<CompanyName>[^\s].*)
(使量词不贪婪)
例如(?P<CompanyName>[^\s].*)
-> (?P<CompanyName>[^\s].*?)
只需投入我的两分钱 - 你可以使用
,
(?P<CompanyName>\b(?:(?!\d{3,})[A-Z\d ])+\b)\s+
(?P<Reference>\b\d{1,18}\b)\s+
(?P<Type>[A-Z]+)