从客户语音中提取字母数字字符串

extracting alpha numeric string from customer speech

我目前正在开发语音机器人。我在提取 pan 卡号 (hazwr2312g) 时遇到困难。客户可以通过多种不同的方式提供。例如,他们可以说我的 pan id 是 (hazwr2312g)。

我创建了一个基于 pan 规则的正则表达式,它运行良好 /[a-z]{3}[abcfghljpte][a-z][0-9]{4}[a-z]/i 并提取 pan 编号。

然而,当客户通过语音提供电话号码时,"g" 通常会在句末替换为 "ji" (hazwr2312 ji)。

各种说法:

1) 我的锅号是hazwr2312 ji 2) hazwr2312 ji 是我的锅号 3)是hazwr2312 ji 4) 嗯哼,我的 id 是 hazwr2312 ji

以后

我该如何解决这个问题?请指导我

问候 见面

您可以尝试使用 regex 或者您也可以选择 splitindexOf 等,如果您有特定类型的关键字一直出现或很常见。