更正 flex 中不一致的名称拼写

Correcting inconsistent name spellings in flex

我目前正在完成一项作业,读取 BibTex 文件并存储有关所有类别、作者及其出版物等的数据...

然而,在 BibTex 文件中,很多时候相同的名字以不同的方式拼写,有时甚至是未知字符。

以下是这些不一致的示例:

我知道如何做到这一点的唯一方法是创建特定于每种情况的正则表达式,即便如此我也不知道它是否适用于未知字符。但是,有太多的作者不会这样做。

我如何才能自动检测和更正这些拼写不一致,以将所有作者及其各自的出版物正确保存在 flex 过滤器中?

假设您有一个已知的优秀作者列表,对于每个输入的作者,使用 fuzzywuzzy 将他们与列表进行匹配。

如果您没有已知作者的列表,则需要制作一个或从某个地方(例如维基百科)获取姓名列表。