用聊天文本数据集中的单个实体替换多个单词
Substitute multiple word with single entity in chat text dataset
我有一个 50 万行的聊天数据。我想替换或替换多个单词实体 [例如。 NEW YORK, New York, new york, Newyork],单个实体为 "New York",使用 python。
我尝试使用正则表达式来执行此操作,但它会占用太多处理时间。我也有很多这样的话。使用 Python 是否有任何替代方法消耗更少的时间?
是否有任何好的资源可以进一步研究 Spacy 和 Rasa API?
你能提供一下,你需要做的一些简单的例子吗?我的意思是使用一些训练对象的例子。您需要更改实体 name 或实体 value?
关于研究 rasa 和 spacy 的更多文档,两者在自己的域上都有很好的文档(site/github)。
关于Rasa,你可以在这里找到好东西:
关于 SpaCy:
此外,您可以在 medium 的帖子中找到更多真实示例
我有一个 50 万行的聊天数据。我想替换或替换多个单词实体 [例如。 NEW YORK, New York, new york, Newyork],单个实体为 "New York",使用 python。
我尝试使用正则表达式来执行此操作,但它会占用太多处理时间。我也有很多这样的话。使用 Python 是否有任何替代方法消耗更少的时间?
是否有任何好的资源可以进一步研究 Spacy 和 Rasa API?
你能提供一下,你需要做的一些简单的例子吗?我的意思是使用一些训练对象的例子。您需要更改实体 name 或实体 value?
关于研究 rasa 和 spacy 的更多文档,两者在自己的域上都有很好的文档(site/github)。
关于Rasa,你可以在这里找到好东西:
关于 SpaCy:
此外,您可以在 medium 的帖子中找到更多真实示例