如何从 sklearn 中的 TF*IDF 值获取字数
How to get word count from TF*IDF value in sklearn
我想仅使用一组句子的 tf*idf 矩阵来获取给定句子中单词的计数。我使用来自 sklearn.feature_extraction.text.
的 TfidfVectorizer
示例:
from sklearn.feature_extraction.text import TfidfVectorizer
sentences = ("The sun is shiny i like the sun","I have been exposed to sun")
vect = TfidfVectorizer(stop_words="english",lowercase=False)
tfidf_matrix = vect.fit_transform(sentences).toarray()
我希望能够仅使用 tfidf_matrix[0] 并可能使用 vect.idf_ 来计算术语 "sun" 在第一句(即 2)中出现的次数.
我知道有无数种方法可以获取词频和词数,但我有一个特殊情况,我只有一个 tfidf 矩阵。
我已经尝试过将第一句中单词 "sun" 的 tfidf 值除以它的 idf 值得到 tf.然后我将 tf 乘以句子中的单词总数以获得单词数。不幸的是,我得到了错误的值。
直觉上的做法正是您所尝试的:将每个 tf 值乘以您正在检查的句子中的单词数。但是,我认为这里的关键观察是每一行都已按其欧氏长度进行了归一化。因此,将每一行乘以该句子中的单词数最多是 近似 非规范化行,这就是为什么你会得到奇怪的值。 AFAIK,如果不提前知道每个原始行的规范,就不能对 tf*idf 矩阵进行非规范化。这主要是因为有无数个向量可以映射到任何一个归一化向量。因此,如果没有规范,您将无法检索到原始向量的正确大小。 See this answer 有关我的意思的更多详细信息。
话虽这么说,但我认为在我们的案例中有一个解决方法。我们至少可以检索每个句子中术语计数的归一化比率,即 sun 看起来是 shiny 的两倍。我发现对每一行进行归一化,使 tf 值的总和为 1,然后 then 将这些值乘以 stopword-filtered 句子的长度似乎检索了原始字数。
演示:
sentences = ("The sun is shiny i like the sun","I have been exposed to sun")
vect = TfidfVectorizer(stop_words="english",lowercase=False)
mat = vect.fit_transform(sentences).toarray()
q = mat / vect.idf_
sums = np.ones((q.shape[0], 1))
lens = np.ones((q.shape[0], 1))
for ix in xrange(q.shape[0]):
sums[ix] = np.sum(q[ix,:])
lens[ix] = len([x for x in sentences[ix].split() if unicode(x) in vect.get_feature_names()]) #have to filter out stopwords
sum_to_1 = q / sums
tf = sum_to_1 * lens
print tf
产量:
[[ 1. 0. 1. 1. 2.]
[ 0. 1. 0. 0. 1.]]
我用几个更复杂的句子尝试了这个,它似乎工作正常。如果我遗漏了什么,请告诉我。
我想仅使用一组句子的 tf*idf 矩阵来获取给定句子中单词的计数。我使用来自 sklearn.feature_extraction.text.
的 TfidfVectorizer示例:
from sklearn.feature_extraction.text import TfidfVectorizer
sentences = ("The sun is shiny i like the sun","I have been exposed to sun")
vect = TfidfVectorizer(stop_words="english",lowercase=False)
tfidf_matrix = vect.fit_transform(sentences).toarray()
我希望能够仅使用 tfidf_matrix[0] 并可能使用 vect.idf_ 来计算术语 "sun" 在第一句(即 2)中出现的次数. 我知道有无数种方法可以获取词频和词数,但我有一个特殊情况,我只有一个 tfidf 矩阵。 我已经尝试过将第一句中单词 "sun" 的 tfidf 值除以它的 idf 值得到 tf.然后我将 tf 乘以句子中的单词总数以获得单词数。不幸的是,我得到了错误的值。
直觉上的做法正是您所尝试的:将每个 tf 值乘以您正在检查的句子中的单词数。但是,我认为这里的关键观察是每一行都已按其欧氏长度进行了归一化。因此,将每一行乘以该句子中的单词数最多是 近似 非规范化行,这就是为什么你会得到奇怪的值。 AFAIK,如果不提前知道每个原始行的规范,就不能对 tf*idf 矩阵进行非规范化。这主要是因为有无数个向量可以映射到任何一个归一化向量。因此,如果没有规范,您将无法检索到原始向量的正确大小。 See this answer 有关我的意思的更多详细信息。
话虽这么说,但我认为在我们的案例中有一个解决方法。我们至少可以检索每个句子中术语计数的归一化比率,即 sun 看起来是 shiny 的两倍。我发现对每一行进行归一化,使 tf 值的总和为 1,然后 then 将这些值乘以 stopword-filtered 句子的长度似乎检索了原始字数。
演示:
sentences = ("The sun is shiny i like the sun","I have been exposed to sun")
vect = TfidfVectorizer(stop_words="english",lowercase=False)
mat = vect.fit_transform(sentences).toarray()
q = mat / vect.idf_
sums = np.ones((q.shape[0], 1))
lens = np.ones((q.shape[0], 1))
for ix in xrange(q.shape[0]):
sums[ix] = np.sum(q[ix,:])
lens[ix] = len([x for x in sentences[ix].split() if unicode(x) in vect.get_feature_names()]) #have to filter out stopwords
sum_to_1 = q / sums
tf = sum_to_1 * lens
print tf
产量:
[[ 1. 0. 1. 1. 2.]
[ 0. 1. 0. 0. 1.]]
我用几个更复杂的句子尝试了这个,它似乎工作正常。如果我遗漏了什么,请告诉我。