将数据与文本标识符合并

Merging data with text identifiers

我正在尝试在公司级别合并一堆数据集。问题是我的数据集仅使用文本字符串(即 "Ham and Cheese LLP")标识公司名称,而且有时还会以其他方式拼错或拼写名称(即 "Ham and Cheese"、"Ham, and Cheese"、"Ham Cheese").

有没有办法使用某种倾向匹配算法为此类数据分配唯一标识符,最好在 Excel、STATA 或 MATLAB 中使用?

在Excel中你可以使用levenshtein距离函数,如下面的link

Levenshtein Distance in Excel