尝试使用 skmultilearn.BinaryRelevance 预测新文本时出现 Matmul 错误
Matmul error when trying to predict a new text using skmultilearn.BinaryRelevance
我正在尝试创建一个多标签文本分类的小例子:
import skmultilearn
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
from scipy.sparse import csr_matrix
from pandas.core.common import flatten
from sklearn.naive_bayes import MultinomialNB
from skmultilearn.problem_transform import BinaryRelevance
TRAIN_DATA = [
['Como efetuar uma conexão com MySQL usando PHP ?', ['desenvolvimento','banco']],
['Quais são os melhores clientes de VPN hoje em dia?', ['redes']],
['Qual é o equivalente ao tipo booleano no Oracle?', ['banco']],
['Como remover entidade indesejada da sessão do Hibernate?', ['desenvolvimento']],
['Como implementar o pool de conexão TCP em java?', ['desenvolvimento','redes']],
['Como posso me conectar ao banco de dados PostgreSQL remotamente de outra rede?', ['banco','redes']],
['Qual a função python para remover acentos em uma string?', ['desenvolvimento']],
['Como remover índices no SQL Server?', ['banco']],
['Como configurar o firewall com DMZ?', ['redes']]
]
data_frame = pd.DataFrame(TRAIN_DATA, columns=['text','labels'])
corpus = data_frame['text']
unique_labels = set(flatten(data_frame['labels']))
for u in unique_labels:
data_frame[u] = 0
data_frame[u] = pd.to_numeric(data_frame[u])
for i, row in data_frame.iterrows():
for u in unique_labels:
if u in row.labels:
data_frame.at[i,u] = 1
tfidf = TfidfVectorizer()
Xfeatures = tfidf.fit_transform(corpus).toarray()
y = data_frame[unique_labels]
binary_rel_clf = BinaryRelevance(MultinomialNB())
binary_rel_clf.fit(Xfeatures,y)
predict_text = ['SQL Server no PHP?']
X_predict = tfidf.fit_transform(predict_text)
br_prediction = binary_rel_clf.predict(X_predict)
print(br_prediction)
但是,我得到了这个错误:
ValueError: matmul: Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 56 is different from 4)
我需要将什么“维度”更改为正确 运行 predict()?
您正在使用 TfidfVectorizer
来转换您的文本特征。你应该在训练数据上只安装一次,在你的例子中是corpus
。但是,当准备数据到 test/predict 时,您应该再次使用 transform
方法并且 而不是 fit_transform
,因为那样会改装变压器。
更改以下内容以使其工作:
X_predict = tfidf.transform(predict_text)
我正在尝试创建一个多标签文本分类的小例子:
import skmultilearn
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
from scipy.sparse import csr_matrix
from pandas.core.common import flatten
from sklearn.naive_bayes import MultinomialNB
from skmultilearn.problem_transform import BinaryRelevance
TRAIN_DATA = [
['Como efetuar uma conexão com MySQL usando PHP ?', ['desenvolvimento','banco']],
['Quais são os melhores clientes de VPN hoje em dia?', ['redes']],
['Qual é o equivalente ao tipo booleano no Oracle?', ['banco']],
['Como remover entidade indesejada da sessão do Hibernate?', ['desenvolvimento']],
['Como implementar o pool de conexão TCP em java?', ['desenvolvimento','redes']],
['Como posso me conectar ao banco de dados PostgreSQL remotamente de outra rede?', ['banco','redes']],
['Qual a função python para remover acentos em uma string?', ['desenvolvimento']],
['Como remover índices no SQL Server?', ['banco']],
['Como configurar o firewall com DMZ?', ['redes']]
]
data_frame = pd.DataFrame(TRAIN_DATA, columns=['text','labels'])
corpus = data_frame['text']
unique_labels = set(flatten(data_frame['labels']))
for u in unique_labels:
data_frame[u] = 0
data_frame[u] = pd.to_numeric(data_frame[u])
for i, row in data_frame.iterrows():
for u in unique_labels:
if u in row.labels:
data_frame.at[i,u] = 1
tfidf = TfidfVectorizer()
Xfeatures = tfidf.fit_transform(corpus).toarray()
y = data_frame[unique_labels]
binary_rel_clf = BinaryRelevance(MultinomialNB())
binary_rel_clf.fit(Xfeatures,y)
predict_text = ['SQL Server no PHP?']
X_predict = tfidf.fit_transform(predict_text)
br_prediction = binary_rel_clf.predict(X_predict)
print(br_prediction)
但是,我得到了这个错误:
ValueError: matmul: Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 56 is different from 4)
我需要将什么“维度”更改为正确 运行 predict()?
您正在使用 TfidfVectorizer
来转换您的文本特征。你应该在训练数据上只安装一次,在你的例子中是corpus
。但是,当准备数据到 test/predict 时,您应该再次使用 transform
方法并且 而不是 fit_transform
,因为那样会改装变压器。
更改以下内容以使其工作:
X_predict = tfidf.transform(predict_text)