Python 基于多标签分类

Question

我有一个如下所示的数据集，在实际情况下，行数在 10000 到 1000000 之间。专栏会更多，但核心问题围绕着这两个领域。

已知标签

我知道类别 -'Apple', 'Blueberry','Orange','Lettuce'

数据集

 DataFrame
({'ROWID':1,2,3,4,5,6,7,8,9,10],
'Category':'Apple','Blueberry'.'Orange','Lettuce','Fruit','Salad','xyz','Fruit' 
,'Leaf','Avocado'],
'Details':['Eat one a day ,doctors keep away','Like it in a  muffin',
'Tastes yummy','Like it with 
salmon','Glass of a juice','Ceser dressing  on  lettuce','Nothing in my 
basket','Like it in a muffin','I like it  it with  salami','Comes from 
Mexico']})

问题：

我必须在类别上使用 groupby 创建一个或多个指标

当类别列的单元格值未知时，我需要从 'Details' 中读取文本并预测最适合类别的标签。例如

沙拉 -> 生菜、水果（第 5 行）-> 橙子水果（第 8 行）-> 蓝莓 Leaf(Row#9)-> 'Lettuce' 据了解，某些行可以未分类。

需要帮助：

我是数据科学算法的新手，正在寻找一些指导来确定解决问题的正确模型。

Answer 1

对“详细信息”列使用朴素贝叶斯，然后对“类别”列进行简单过滤并删除具有已知类别值的行。

Python 基于多标签分类

Python based multi-label Classification

python-3.x

random-forest

multilabel-classification

已知标签

数据集

问题：

需要帮助：