用聊天文本数据集中的单个实体替换多个单词

Substitute multiple word with single entity in chat text dataset

我有一个 50 万行的聊天数据。我想替换或替换多个单词实体 [例如。 NEW YORK, New York, new york, Newyork],单个实体为 "New York",使用 python。

我尝试使用正则表达式来执行此操作,但它会占用太多处理时间。我也有很多这样的话。使用 Python 是否有任何替代方法消耗更少的时间?

是否有任何好的资源可以进一步研究 Spacy 和 Rasa API?

你能提供一下,你需要做的一些简单的例子吗?我的意思是使用一些训练对象的例子。您需要更改实体 name 或实体 value?

关于研究 rasa 和 spacy 的更多文档,两者在自己的域上都有很好的文档(site/github)。

关于Rasa,你可以在这里找到好东西:

  1. https://rasa.com/docs/nlu/
  2. https://medium.com/rasa-blog
  3. https://forum.rasa.com/

关于 SpaCy:

  1. https://spacy.io/usage/
  2. https://explosion.ai/blog/

此外,您可以在 medium 的帖子中找到更多真实示例