通过机器学习自动对动词变位进行分组
Automatically group verb conjugations with machine learning
是否可以自动对属于同一类的动词变位进行分组?从一个大的维基百科数据集中,我想提取所有动词,根据所有时态将它们组合在一起,并将它们放入变位表中。
现在
(I) eat
(You) eat
...
过去现在
(I) ate
(You) ate
...
这可以通过机器学习实现吗?我发现 spacy.io 我可以用来识别一个词是否是动词,但我不知道如何自动将它们“分组”。
非常感谢任何指点!
您的问题涉及多个子问题。它将帮助您熟悉术语,以便您可以找到解决这些问题的现有工具和解决方案。
要完成此任务,您需要:
- 确定维基百科数据集中的哪些标记是动词。
- 对于这些动词标记中的每一个,确定所使用的变位。
- 对于这些动词标记中的每一个,确定动词的词元(也称为 "dictionary form")。这将告诉您令牌属于哪个"group"。
第一个任务通常由词性标注器完成。词性标注器扫描文本的标记并识别每个标记的词性。
第二个子任务通常称为 "morphological analysis",执行此任务的工具称为形态分析器。一些词性标注器也会给你这个信息,你可以通过查看标注器使用的标签集来判断。然而,即使它们提供了结合信息,也往往不如形态分析仪提供的详细。
最后,第三个任务称为词形还原。大多数词性标注器和词法分析器都会为您提供引理。
已经为所有这些任务创建了许多方法和工具。其中许多涉及机器学习方法。例如,我工作的实验室使用在监督数据集上训练的神经网络来进行形态学分析。不过,这些工具可能需要很长时间来构建和调整,并且有针对主要语言(尤其是英语)的现成解决方案。
我不知道什么工具是最先进的英语工具。但是,既然您知道了这些术语,您就可以自己调查一下有哪些工具可用。我可以从文档页面看到 Spacy 确实为您提供了您需要的大部分信息:它识别动词并提供引理。它还似乎可以区分一些具有不同 "tags" 的变位(例如 "VBG" 和 "VBZ")。 "Part-of-Speech Tagging" 下有完整列表:https://spacy.io/api/annotation。不过,不确定这些标签是否涵盖您所关心的所有变位。
是否可以自动对属于同一类的动词变位进行分组?从一个大的维基百科数据集中,我想提取所有动词,根据所有时态将它们组合在一起,并将它们放入变位表中。
现在
(I) eat
(You) eat
...
过去现在
(I) ate
(You) ate
...
这可以通过机器学习实现吗?我发现 spacy.io 我可以用来识别一个词是否是动词,但我不知道如何自动将它们“分组”。
非常感谢任何指点!
您的问题涉及多个子问题。它将帮助您熟悉术语,以便您可以找到解决这些问题的现有工具和解决方案。
要完成此任务,您需要:
- 确定维基百科数据集中的哪些标记是动词。
- 对于这些动词标记中的每一个,确定所使用的变位。
- 对于这些动词标记中的每一个,确定动词的词元(也称为 "dictionary form")。这将告诉您令牌属于哪个"group"。
第一个任务通常由词性标注器完成。词性标注器扫描文本的标记并识别每个标记的词性。
第二个子任务通常称为 "morphological analysis",执行此任务的工具称为形态分析器。一些词性标注器也会给你这个信息,你可以通过查看标注器使用的标签集来判断。然而,即使它们提供了结合信息,也往往不如形态分析仪提供的详细。
最后,第三个任务称为词形还原。大多数词性标注器和词法分析器都会为您提供引理。
已经为所有这些任务创建了许多方法和工具。其中许多涉及机器学习方法。例如,我工作的实验室使用在监督数据集上训练的神经网络来进行形态学分析。不过,这些工具可能需要很长时间来构建和调整,并且有针对主要语言(尤其是英语)的现成解决方案。
我不知道什么工具是最先进的英语工具。但是,既然您知道了这些术语,您就可以自己调查一下有哪些工具可用。我可以从文档页面看到 Spacy 确实为您提供了您需要的大部分信息:它识别动词并提供引理。它还似乎可以区分一些具有不同 "tags" 的变位(例如 "VBG" 和 "VBZ")。 "Part-of-Speech Tagging" 下有完整列表:https://spacy.io/api/annotation。不过,不确定这些标签是否涵盖您所关心的所有变位。