从头开始实施 TF-IDF 向量器
Implementing a TF-IDF Vectorizer from Scratch
我正在尝试在 Python 中从头开始实现 tf-idf 向量化器。我计算了我的 TDF 值,但这些值与使用 sklearn 的 TfidfVectorizer() 计算的 TDF 值不匹配。
我做错了什么?
corpus = [
'this is the first document',
'this document is the second document',
'and this is the third one',
'is this the first document',
]
from collections import Counter
from tqdm import tqdm
from scipy.sparse import csr_matrix
import math
import operator
from sklearn.preprocessing import normalize
import numpy
sentence = []
for i in range(len(corpus)):
sentence.append(corpus[i].split())
word_freq = {} #calculate document frequency of a word
for i in range(len(sentence)):
tokens = sentence[i]
for w in tokens:
try:
word_freq[w].add(i) #add the word as key
except:
word_freq[w] = {i} #if it exists already, do not add.
for i in word_freq:
word_freq[i] = len(word_freq[i]) #Counting the number of times a word(key)is in the whole corpus thus giving us the frequency of that word.
def idf():
idfDict = {}
for word in word_freq:
idfDict[word] = math.log(len(sentence) / word_freq[word])
return idfDict
idfDict = idf()
预期输出:
(使用 vectorizer.idf_ 获得的输出)
[1.91629073 1.22314355 1.51082562 1. 1.91629073 1.91629073 1.22314355 1.91629073 1. ]
实际输出:
(取值为对应key的idf值
{'and': 1.3862943611198906,
'document': 0.28768207245178085,
'first': 0.6931471805599453,
'is': 0.0,
'one': 1.3862943611198906,
'second': 1.3862943611198906,
'the': 0.0,
'third': 1.3862943611198906,
'this': 0.0
}
有一些默认参数可能会影响 sklearn 正在计算的内容,但这里似乎很重要的特定参数是:
smooth_idf : boolean (default=True)
通过将文档频率加一来平滑 idf 权重,就好像看到一个额外的文档只包含集合中的每个术语一次。防止零除法。
如果您从每个元素中减去一个并将 e 乘以该次方,您将得到非常接近 5 / n 的值,对于较低的 n 值:
1.91629073 => 5/2
1.22314355 => 5/4
1.51082562 => 5/3
1 => 5/5
无论如何,没有一个单独的 tf-idf 实现;您定义的指标只是一种尝试观察某些属性(如 "a higher idf should correlate with rarity in the corpus")的启发式方法,因此我不会太担心实现相同的实现。
sklearn 似乎使用了:
log((document_length + 1) / (frequency of word + 1)) + 1
这就像有一份文档包含语料库中的每个单词。
编辑:TfIdfNormalizer
.
的文档字符串证实了最后一段
我正在尝试在 Python 中从头开始实现 tf-idf 向量化器。我计算了我的 TDF 值,但这些值与使用 sklearn 的 TfidfVectorizer() 计算的 TDF 值不匹配。
我做错了什么?
corpus = [
'this is the first document',
'this document is the second document',
'and this is the third one',
'is this the first document',
]
from collections import Counter
from tqdm import tqdm
from scipy.sparse import csr_matrix
import math
import operator
from sklearn.preprocessing import normalize
import numpy
sentence = []
for i in range(len(corpus)):
sentence.append(corpus[i].split())
word_freq = {} #calculate document frequency of a word
for i in range(len(sentence)):
tokens = sentence[i]
for w in tokens:
try:
word_freq[w].add(i) #add the word as key
except:
word_freq[w] = {i} #if it exists already, do not add.
for i in word_freq:
word_freq[i] = len(word_freq[i]) #Counting the number of times a word(key)is in the whole corpus thus giving us the frequency of that word.
def idf():
idfDict = {}
for word in word_freq:
idfDict[word] = math.log(len(sentence) / word_freq[word])
return idfDict
idfDict = idf()
预期输出: (使用 vectorizer.idf_ 获得的输出)
[1.91629073 1.22314355 1.51082562 1. 1.91629073 1.91629073 1.22314355 1.91629073 1. ]
实际输出: (取值为对应key的idf值
{'and': 1.3862943611198906,
'document': 0.28768207245178085,
'first': 0.6931471805599453,
'is': 0.0,
'one': 1.3862943611198906,
'second': 1.3862943611198906,
'the': 0.0,
'third': 1.3862943611198906,
'this': 0.0
}
有一些默认参数可能会影响 sklearn 正在计算的内容,但这里似乎很重要的特定参数是:
smooth_idf : boolean (default=True)
通过将文档频率加一来平滑 idf 权重,就好像看到一个额外的文档只包含集合中的每个术语一次。防止零除法。
如果您从每个元素中减去一个并将 e 乘以该次方,您将得到非常接近 5 / n 的值,对于较低的 n 值:
1.91629073 => 5/2
1.22314355 => 5/4
1.51082562 => 5/3
1 => 5/5
无论如何,没有一个单独的 tf-idf 实现;您定义的指标只是一种尝试观察某些属性(如 "a higher idf should correlate with rarity in the corpus")的启发式方法,因此我不会太担心实现相同的实现。
sklearn 似乎使用了:
log((document_length + 1) / (frequency of word + 1)) + 1
这就像有一份文档包含语料库中的每个单词。
编辑:TfIdfNormalizer
.