从产品描述中提取多个产品属性的正则表达式

Regular expressions extracting multiple product attributes from product description

我有一组产品描述,我想通过正则表达式从中提取产品属性。

https://regex101.com/r/HTTfNR/1

产品描述

BL460c G6 X5550 6G 1P Svr  
BL460c G6 E5540 6G 1P Svr  
BL460c G6 E5540 6G 1P Svr  
BL460c G6 E5530 6G 1P Svr  
BL460c G6 L5520 6G 1P Svr  
BL460c G6 E5520 6G 1P Svr  
BL460c G6 E5506 6G 1P Svr  
BL460c G6 E5502 6G 1P Svr  
BL280c G6 L5520 2G LP 1P Svr  
BL280c G6 E5520 2G 1P Svr  
BL280c G6 E5540 2G 1P Svr  
BL280c G6 E5502 2G 1P Svr  
S-Buy BL460c G6 E5540 8G 2P Svr  
S-Buy BL460c G6 E5530 4G 1P Svr  
S-Buy BL460c G6 E5530 4G 1P Svr  
BL2x220c G6 E5540 24G 2P 250GB Svr  
BL2x220c G6 E5530 24G 2P 250GB Svr  
BL2x220c G6 L5530 24G 2P 250GB Svr  
BL2x220c G6 L5520 24G 2P  
BL2x220c G6 E5640 2x2P 24G Svr  
BL2x220c G6 E5630 2x2P 24G Svr  
BL2x220c G6 L5640 2x2P 24G Svr  
BL2x220c G6 Mod0 Svr  
BL280c G6 X5650 6G 1P Svr  
BL280c G6 E5630 4G 1P Svr  
BL280c G6 L5640 4G 1P Svr  
BL280c G6 E5506 2G 1P Svr  
BL620c G7 E7-2860 32G Svr  
BL620c G7 E7-2850 32G Svr  
BL620c G7 E7-2830 32G Svr  
BL680c G7 E7-4860 64G Svr  
BL680c G7 E7-4860 64G Svr  
BL680c G7 E7-4850 64G Svr  
BL680c G7 E7-4830 64G Svr
BL680c G7 E7 4830 64G Svr   

我想用正则表达式解决这个问题。

我已经试过了,但我无法让它适用于我的 1step 的所有用例。

\b(?!\d)([ELX0-9-])\w{1,}

我想提取 x5550/E5540/E7-2860/E7-2860/E7 4830 作为我的第一步。有人可以帮我提供一段代码以从上面的文本中提取这段文本吗?

要使用正则表达式提取信息,您需要清楚数据模式。从你的样本集中,我猜模式是 "text preceded by G and a number" 并且正则表达式看起来像这样:

(?<=G\d\s)\S+

https://regex101.com/r/KaK4fR/1

这是否会完全防错还有待观察。

如果匹配应以 E XL 开头,您可以省略否定前瞻 (?!\d) 并仅使用字符 [=41= 中的那些] 没有连字符和数字。

然后匹配一个可选数字,后跟 space 或连字符。

\b[EXL](?:\d[ -])?\d+(?!\S)

部分

  • \b[EXL] 字边界,然后匹配 E XL
  • (?:\d[ -])? 可选择匹配后跟 space 或连字符
  • 的数字
  • \d+ 匹配 1+ 个数字
  • (?!\S) 否定前瞻,断言直接在右边的不是非白space字符

Regex demo