关键字提取和基于关键字的文本分类

keyword extraction and Keyword based text classification

目前我正在做一个需要关键词提取的项目,或者我们可以说基于关键词的文本分类。数据集包含 3 列文本、关键字和 cc 术语,我需要从文本中提取关键字,然后根据这些关键字对文本进行分类,数据集中的每一行都有自己的关键字,我想提取类似的关键字。我想通过提供文本和关键字列来训练,以便模型能够提取未知的关键字 text.please 帮助

关键字提取通常使用 TF-IDF scores 简单地通过设置分数阈值来完成。在训练分类器时,在某个阈值处切断关键字没有多大意义,知道某些东西不太可能是关键字可能对分类器来说也是一条有价值的信息。

获得特定单词的 TF-IDF 分数的最简单方法是在 scikit-learn 中使用 TfIdfVectorizer,它执行所有费力的文本预处理步骤(标记化、删除停用词)。

您可能可以通过针对分类任务微调 BERT 来获得更好的结果(但当然是以更高的计算成本为代价)。