如何将机器学习应用于模糊匹配

How to apply machine learning to fuzzy matching

假设我有一个 MDM 系统(主数据管理),其主要应用是检测和防止记录重复。

每次销售代表在系统中输入新客户时,我的 MDM 平台都会对现有记录进行检查,计算词或短语或属性对之间的 Levenshtein 或 Jaccard 或 XYZ 距离,考虑权重和系数以及输出相似度分数,等等。

典型的模糊匹配场景。

我想知道应用机器学习技术来优化匹配输出(即以最大准确度查找重复项)是否有意义。
以及它最有意义的地方。

还有 this excellent answer 关于这个主题,但我不太明白这个人是否真的使用了 ML。

另外我的理解是,加权模糊匹配已经是一个足够好的解决方案,甚至可能从财务角度来看,因为无论何时部署这样的 MDM 系统,无论如何都必须进行一些分析和预处理,无论是手动编码匹配规则或训练 ML 算法。

所以我不确定添加 ML 是否会代表一个重要的价值主张。

如有任何想法,我们将不胜感激。

使用机器学习的主要优势是节省时间。

如果有足够的时间,您很可能可以手动调整权重并得出非常适合您的特定数据集的匹配规则。机器学习方法可能很难胜过为特定数据集定制的手工系统。

但是,手工制作一个好的匹配系统可能需要几天的时间。如果您使用现有的 ML 进行匹配工具,例如 Dedupe,那么可以在一个小时内(包括设置时间)学习到好的权重和规则。

因此,如果您已经构建了一个在数据上表现良好的匹配系统,则可能不值得研究 ML。但是,如果这是一个新的数据项目,那么它几乎肯定会是。

传统上,模糊记录匹配软件需要大量用户参与项目参数化和文书审查。用户要么需要提供各种输入参数和阈值,要么为机器学习提供匹配和不匹配的例子。在这两种情况下,大量的用户参与和专业知识是成功分析的先决条件。 使用无监督机器学习的主要价值在于让软件自动找出解决方案,无需用户参与。 至少有一款这样的利用机器学习的模糊匹配软件,叫做"ReMaDDer":http://remaddersoft.wixsite.com/remadder