如何根据上下文对相似类型的句子进行聚类并从中提取关键词

How can I cluster similar type of sentences based on their context and extract keywords from them

我想根据上下文对句子进行聚类,并从相似的上下文句子中提取共同的关键词。

例如 1.我需要回家 2.我在吃饭 3. 他明天要回家 4. 他在餐厅

句子 1 和 3 与 go 和 home 等关键字相似,可能是 travel 和 house 等同义词。

已有的 API 会有所帮助,例如以某种方式使用 IBM Watson

您可以使用 RapidMiner with Text Processing Extension.

将每个句子插入一个单独的文件并将它们全部放在一个文件夹中。

放置运算符并进行如下设计。

单击“从文件处理文档”操作符,然后在右侧栏的“文本目录”字段中选择“编辑列表”。然后选择包含您的文件的文件夹。

双击文件操作员的流程文档,然后在新的 window 中添加像下面设计的操作员(只是您需要的)。

然后运行你的进程。

这个API实际上是在做你所要求的(聚类句子+给出关键词): http://www.rxnlp.com/api-reference/cluster-sentences-api-reference/

遗憾的是,用于聚类和生成关键字的算法不可用。

希望对您有所帮助。