python 中为每个句子(或短文档)分配语义标签的清晰方法
Clear approach for assigning semantic tags to each sentence (or short documents) in python
我正在寻找一种使用 python 库来解决以下问题的好方法:
我有一个数据集,其中有一列包含产品描述。此列中的值可能非常混乱,并且会有很多与产品无关的其他词。我想知道哪些行是关于同一产品的,因此我需要用其主要主题标记每个描述句子。例如,如果我有以下内容:
“500 单位鞋绿色运动网球进口海外塑料”,我希望标签是这样的:"shoe"、"sport"。所以我正在寻找一种方法来对句子进行语义标记,而不是词性标记。假设我没有用于训练的标记(标记)数据。
如有任何帮助,我们将不胜感激。
缺少标记数据意味着您无法应用任何使用词向量的语义分类方法,这将是您问题的最佳解决方案。然而,另一种方法是构建标记 n-gram 的文档频率,并根据 idf 的一些平滑变体假设重要性(即,往往经常出现在描述中的词可能具有一些语义权重)。然后,您可以检查按 idf 排序的单词列表,并挑选(/擦除)您认为重要(/不重要)的单词。结果不会很完美,但考虑到您缺乏训练数据,这是一个干净简单的解决方案。
我正在寻找一种使用 python 库来解决以下问题的好方法:
我有一个数据集,其中有一列包含产品描述。此列中的值可能非常混乱,并且会有很多与产品无关的其他词。我想知道哪些行是关于同一产品的,因此我需要用其主要主题标记每个描述句子。例如,如果我有以下内容: “500 单位鞋绿色运动网球进口海外塑料”,我希望标签是这样的:"shoe"、"sport"。所以我正在寻找一种方法来对句子进行语义标记,而不是词性标记。假设我没有用于训练的标记(标记)数据。
如有任何帮助,我们将不胜感激。
缺少标记数据意味着您无法应用任何使用词向量的语义分类方法,这将是您问题的最佳解决方案。然而,另一种方法是构建标记 n-gram 的文档频率,并根据 idf 的一些平滑变体假设重要性(即,往往经常出现在描述中的词可能具有一些语义权重)。然后,您可以检查按 idf 排序的单词列表,并挑选(/擦除)您认为重要(/不重要)的单词。结果不会很完美,但考虑到您缺乏训练数据,这是一个干净简单的解决方案。