有没有一种可靠的方法可以自动检测按钮并确认电子邮件中的代码?
Is there a reliable way to automatically detect buttons and confirm codes in emails?
我发现我的 phone 上接收短信的自动复制代码功能非常好,并希望为我的电子邮件实现类似的功能。到目前为止,我已经能够将传入的电子邮件挂钩到一个函数中并使用 node-imap
解析它们,但我正在努力处理实际的代码自动检测。
比如有些验证码是6个numbers/capital个字母,比如123X4Y
。有些短一点,有些长得多,所以我随意写了正则表达式 \b[0-9A-Z]{5,12}\b
(我从 5 开始,因为许多电子邮件的底部都有版权日期,即 4 位数字)。这工作得很好,但不会捕获所有代码,偶尔会捕获不相关的信息。
此外,很多时候电子邮件只包含一个大的“确认”或“验证”按钮,而不是代码。在这些情况下,我目前只是在 link 文本或 href
中寻找带有 confirm 或 verify 字样的 links,但这在很多时候也会失败。
我想知道是否有任何方法可以更可靠地从电子邮件中捕获操作按钮和确认代码!
如果没有某种计算机视觉,就没有可靠的方法来检测电子邮件中的按钮,因为它们可以采用无限多种形式(填充 table 带有锚点的单元格、样式锚点等) .
您可以通过一点 NLP 获得确认码——您可以采取一种简单的方法,只查找“确认”或“验证”等关键字,或者您可以利用 NER(命名实体识别) 模型来识别电子邮件中的确认码。
作为 NER 的替代方法,您可以简单地 运行 在主题行的编码向量上使用朴素贝叶斯分类器来识别电子邮件是否包含确认码。如果您能够识别该电子邮件是一封“确认”电子邮件,您可以插入上面的正则表达式并解析代码。
我发现我的 phone 上接收短信的自动复制代码功能非常好,并希望为我的电子邮件实现类似的功能。到目前为止,我已经能够将传入的电子邮件挂钩到一个函数中并使用 node-imap
解析它们,但我正在努力处理实际的代码自动检测。
比如有些验证码是6个numbers/capital个字母,比如123X4Y
。有些短一点,有些长得多,所以我随意写了正则表达式 \b[0-9A-Z]{5,12}\b
(我从 5 开始,因为许多电子邮件的底部都有版权日期,即 4 位数字)。这工作得很好,但不会捕获所有代码,偶尔会捕获不相关的信息。
此外,很多时候电子邮件只包含一个大的“确认”或“验证”按钮,而不是代码。在这些情况下,我目前只是在 link 文本或 href
中寻找带有 confirm 或 verify 字样的 links,但这在很多时候也会失败。
我想知道是否有任何方法可以更可靠地从电子邮件中捕获操作按钮和确认代码!
如果没有某种计算机视觉,就没有可靠的方法来检测电子邮件中的按钮,因为它们可以采用无限多种形式(填充 table 带有锚点的单元格、样式锚点等) .
您可以通过一点 NLP 获得确认码——您可以采取一种简单的方法,只查找“确认”或“验证”等关键字,或者您可以利用 NER(命名实体识别) 模型来识别电子邮件中的确认码。
作为 NER 的替代方法,您可以简单地 运行 在主题行的编码向量上使用朴素贝叶斯分类器来识别电子邮件是否包含确认码。如果您能够识别该电子邮件是一封“确认”电子邮件,您可以插入上面的正则表达式并解析代码。