Python - 如何在网页中使用 sklearn 分类器
Python - how to use a sklearn classifier in webpage
我正在学习Python,我有一个问题。我建立了一个分类器(命名为build.py
),如下所示:
file = 'file path/CVdb.csv'
input = pd.DataFrame.from_csv(file,index_col=None,encoding='ISO-8859-
1',sep=',')
text = input.drop_duplicates()
corpus = text.Text.str.replace(r'[^A-Za-z0-9+#,]+',' ')
category = text.Skill.str.replace(r'[^A-Za-z0-9&,]+',' ')
stopset = list(set(stopwords.words('english')))
X_train = corpus
Y_train = category
classifier = Pipeline([ ('vectorizer',TfidfVectorizer(analyzer='word',stop_words=stopset,max_features=20 )),
('clf', linear_model.SGDClassifier(loss='hinge',alpha=0.0001,penalty='elasticnet'))])
model = classifier.fit(X_train,Y_train)
joblib.dump(model,'model.pkl')
此 model.pkl
保存在我定义为 file
的同一文件路径中。现在我正在通过 运行 另一个名为 deploy.py
:
的 .py 文件进一步使用这个模型
file = 'D:/Arghya - Others/Python Work/OwL/Demo-1/CVdb-test.csv'
input = pd.DataFrame.from_csv(file,index_col=None,encoding='ISO-8859-
1',sep=',')
text = input.drop_duplicates()
corpus = text.Text.str.replace(r'[^A-Za-z0-9+#,]+',' ')
stopset = list(set(stopwords.words('english')))
vect_new =
TfidfVectorizer(analyzer="word",max_features=20,stop_words=stopset)
X_Test = vect_new.fit_transform(corpus).toarray()
model = joblib.load('model.pkl')
predict_new = model.predict(corpus)
ds = pd.Series(predict_new)
output = ds.to_csv('filepath/output.csv',sep=',',encoding='utf-8')
到目前为止一切顺利!!
现在我希望这个 deploy.py
用于网页,用户可以通过 UI 输入文件(.doc
或 .pdf
类型)并单击按钮.单击后,将调用 deploy.py
并执行分类。
我怎样才能做到这一点。
我有 python 3.5 版本和 运行 Window 7 64 位系统。
您似乎在寻找 python 网络框架,以便您可以使用 python 代码来 运行 网站。有很多选择。这里有两个受欢迎的:
- 烧瓶 (http://flask.pocoo.org/)
- Django (https://www.djangoproject.com/)
我可能会从烧瓶开始。 :)
我正在学习Python,我有一个问题。我建立了一个分类器(命名为build.py
),如下所示:
file = 'file path/CVdb.csv'
input = pd.DataFrame.from_csv(file,index_col=None,encoding='ISO-8859-
1',sep=',')
text = input.drop_duplicates()
corpus = text.Text.str.replace(r'[^A-Za-z0-9+#,]+',' ')
category = text.Skill.str.replace(r'[^A-Za-z0-9&,]+',' ')
stopset = list(set(stopwords.words('english')))
X_train = corpus
Y_train = category
classifier = Pipeline([ ('vectorizer',TfidfVectorizer(analyzer='word',stop_words=stopset,max_features=20 )),
('clf', linear_model.SGDClassifier(loss='hinge',alpha=0.0001,penalty='elasticnet'))])
model = classifier.fit(X_train,Y_train)
joblib.dump(model,'model.pkl')
此 model.pkl
保存在我定义为 file
的同一文件路径中。现在我正在通过 运行 另一个名为 deploy.py
:
file = 'D:/Arghya - Others/Python Work/OwL/Demo-1/CVdb-test.csv'
input = pd.DataFrame.from_csv(file,index_col=None,encoding='ISO-8859-
1',sep=',')
text = input.drop_duplicates()
corpus = text.Text.str.replace(r'[^A-Za-z0-9+#,]+',' ')
stopset = list(set(stopwords.words('english')))
vect_new =
TfidfVectorizer(analyzer="word",max_features=20,stop_words=stopset)
X_Test = vect_new.fit_transform(corpus).toarray()
model = joblib.load('model.pkl')
predict_new = model.predict(corpus)
ds = pd.Series(predict_new)
output = ds.to_csv('filepath/output.csv',sep=',',encoding='utf-8')
到目前为止一切顺利!!
现在我希望这个 deploy.py
用于网页,用户可以通过 UI 输入文件(.doc
或 .pdf
类型)并单击按钮.单击后,将调用 deploy.py
并执行分类。
我怎样才能做到这一点。
我有 python 3.5 版本和 运行 Window 7 64 位系统。
您似乎在寻找 python 网络框架,以便您可以使用 python 代码来 运行 网站。有很多选择。这里有两个受欢迎的:
- 烧瓶 (http://flask.pocoo.org/)
- Django (https://www.djangoproject.com/)
我可能会从烧瓶开始。 :)