在 Python 中使用机器学习模型检测工作类型(全职、兼职)

Job type(Full Time , Part Time) detection with Machine learning model in Python

我有一个工作数据集,其中有“标题”、“描述”、“城市”等列和“最佳工作”列。数据集的输出是“最佳工作”,其中我有两个输出(是,否)是表示工作是兼职,否表示工作是全职。我想训练任何机器学习模型。首先,我想训练 Model X 或特征列将是 Title 、 Description 等,标签将是“Best Jobs”。但我不知道如何在字符串列上训练模型。请帮助我。

import numpy as np
import pandas as pd
import os, sys
from sklearn.preprocessing import MinMaxScaler
from xgboost import XGBClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

df = pd.read_csv("machinelearning-new-best-gar-jobs.csv", engine = 'python',encoding='mac_roman')
df.head()\

df['Job description'].replace('  ', np.nan, inplace=True) df=df.dropna(subset=['Job description']) df.isnull().sum()

然后我将标签(BestJobs)转换为整数 1 和 0

df['BestJobs'] = (df['BestJobs']=='Yes').astype(int)  # changing yes to 1 and no to 0 print(df['BestJobs'].value_counts())

我想知道我应该申请哪个模型来完成它。

我认为您可能只能使用“工作描述”和“最佳工作”两列来训练模型。然后它变成了一个文本分类问题,比如将电影评论分类为正面或负面。然后您可以预处理职位描述文本并使用神经网络来训练您的模型。

基本思想是,您可能只需要几个必需的特征来训练您的模型,而不是处理您获得的所有特征数据。可以参考这篇博文https://medium.com/analytics-vidhya/text-preprocessing-for-nlp-natural-language-processing-beginners-to-master-fd82dfecf95(Text Preprocessing for NLP)

希望对您有所帮助!