使用 Python 文本挖掘车辆识别号 (VIN#) 的大量注释

Question

我有一个包含 2 列的保险索赔数据的大型数据集。一列是声明标识符。另一个是索赔附带的一大串注释。

我的目标是通过文本挖掘特定 VIN 号码的索赔说明。 VIN# 通常采用 17 位格式。见下文：https://www.autocheck.com/vehiclehistory/autocheck/en/vinbasics

但是，我的数据出现了一些问题。有时，VIN# 仅输入最后 6 位数字。我基本上需要一种方法来处理我的数据，并抓取任何看起来像 17 位 VIN 号码的东西，并将其 return 到该行数据。我正在使用 Python 3，我是一个菜鸟文本挖掘者，但有一些使用正则表达式的基本经验。

我正在尝试在 python 中创建一个函数，我可以在其中将其 lambda 应用于注释列。

目前尝试次数：

C_Notes['VIN#s'] = C_Notes['ClaimsNotes'].str.findall(r'[0-9]{1}[0-9a-zA-Z]{16}')

我正在尝试模仿我提供的 link 中的 VIN 格式。

所以寻找具有以下品质的字符串的东西：

编辑：更改了代码片段。如果我用虚构的文本制作了一些 VIN 的玩具示例，但我没有成功地遍历 pandas 列，则此代码示例有效。每个行条目都有一大段文本我希望函数一次遍历每一行。

谢谢。

Answer 1

嗯，您的代码正则表达式不起作用，因为违反了您的具体要求。尝试：

^[0-9][a-zA-Z]{2}[0-9a-zA-Z]{5}[a-zA-Z]{3}[0-9]{6}

Answer 2

但是您确切使用哪个 VIN 系统？

维基百科 article 描述了 17 位 VIN 号，描述了三个不同的系统：ISO 3779、欧洲和北美。

显然没有通用的正式规则规定什么（onlyletter/onlydigit/letterordigit）占据哪个位置。

前 3 个字符取决于制造商 country/region，其中第一个字符是大洋洲和美洲的数字，其他人是字母。

对于北美，第 9、13、14、15、16 和 17 位始终是数字和字母 I,O,Q，从不使用。

考虑到以上考虑，可以使用以下模式：

[0-9][0-9A-Za-z^IiOoQq]{7}[0-9][0-9A-Za-z^IiOoQq]{3}[0-9]{5}

由数字（[0-9]）和字母或数字组成，但不属于禁止字符。 ^里面的[]表示后面跟着字符黑名单

作为更笼统的说明，我建议不要根据合法字符串的有限子集来猜测正则表达式。

Text mining a large list of Notes for Vehicle Identification Number (VIN#) with Python