试图摆脱 python 正则表达式中的尾随空格

Question

我在 Python REGEX 中使用了一个 CSV。我需要在 CSV 的最后一个字段中提取值，但我在 regex101.com（顺便说一句，很棒的页面）中遇到了问题。

几个示例行：

,11/12/2017,00-87-67 34849444,-27.00,ITEMRECEIVED,H2G2                   929613292012071217 REF
,02/01/2018,00-87-68 58493922,-1110.79,ITEMSENT,MIL P01  WOOLLIES     9221234545         DEG

我需要使用此正则表达式捕获最后的 "MEMO" 字段：

(?:[^\,]*\,){5}(?P<CompanyName>[^\s].*)\s{4,19}(?P<Reference>\S{1,18})\s{1,11}(?P<Type>\w{3})

我得到的是：

CompanyName           Reference             Type
-----------           -----------           ----
'H2G2               ' '929613292012071217'  'REF'
'MIL P01  WOOLLIES  ' '9221234545'          'DEG'

看起来不多，但是我怎样才能让正则表达式 trim CompanyName 中的尾随空格，以便我得到以下内容？

CompanyName         Reference             Type
-----------         -----------           ----
'H2G2'              '929613292012071217'  'REF'
'MIL P01  WOOLLIES' '9221234545'          'DEG'

提前致谢，

安静的莱尼

Answer 1

将您的正则表达式更改为：

(?:[^\,]*\,){5}(?P<CompanyName>[^\s].*\S)\s{4,19}(?P<Reference>\S{1,18})\s{1,11}(?P<Type>\w{3})

添加\S基本上意味着在最后一个非空白字符之后不能有更多的空白。

Answer 2

一种方法可能是使用前瞻性 "short-circuit" 通配符（非贪婪），如下所示：

(?P<CompanyName>.*?)(?=\s+\d)

整个模式：

(?:[^\,]*\,){5}(?P<CompanyName>.*?)(?=\s+\d)\s*(?P<Reference>\S{1,18})\s{1,11}(?P<Type>\w{3})

（当然要看你的数据本身的可能性，这里我假设公司名称不能以孤立的数字结尾）

https://regex101.com/r/reT66g/1/

Answer 3

除非我遗漏了什么，只要给这个东西加一个问号就可以了(?P<CompanyName>[^\s].*)（使量词不贪婪）

例如(?P<CompanyName>[^\s].*) -> (?P<CompanyName>[^\s].*?)

Answer 4

只需投入我的两分钱 - 你可以使用

,
(?P<CompanyName>\b(?:(?!\d{3,})[A-Z\d ])+\b)\s+
(?P<Reference>\b\d{1,18}\b)\s+
(?P<Type>[A-Z]+)

见a demo on regex101.com。

试图摆脱 python 正则表达式中的尾随空格

Trying to get rid of trailing spaces in python regex

python

regex

trim