将城市名称映射到国家 - python?

Map city names to countries - python?

我有一个代表某些人位置的数据框。

此数据框未清理,名称混乱。有些行只有国家名称,有些只有名称和城市,有些只有城市。我也有不是英文的句子

如何将 python 与 NLP 一起使用来整理此数据集并获得同质数据集?

这是数据集的截图:

提前致谢

我无法发表评论,但你不清楚你想从这个系列中提取什么?如果您只是试图找到“命名位置”的每个实例并从中创建新系列,您可能正在寻找 Named Entity Recognition (NER). NLTK is a good place to start with NER, and they have a pretty good tutorial 如何使用它来获取特定类型的命名实体(请参阅第 5 节,命名实体认可)。

简而言之,我会从类似

的内容开始
import nltk
ser = #<your series of strings>
locations = df.apply(lambda x:nltk.ne_chunk(nltk.pos_tag(nltk.word_tokenize(str(x)))))

但是NLP是一个复杂的任务,as has been discussed,NER尤其困难。