Python 基于多标签分类
Python based multi-label Classification
我有一个如下所示的数据集,在实际情况下,行数在 10000 到 1000000 之间。
专栏会更多,但核心问题围绕着这两个领域。
已知标签
我知道类别 -'Apple', 'Blueberry','Orange','Lettuce'
数据集
DataFrame
({'ROWID':1,2,3,4,5,6,7,8,9,10],
'Category':'Apple','Blueberry'.'Orange','Lettuce','Fruit','Salad','xyz','Fruit'
,'Leaf','Avocado'],
'Details':['Eat one a day ,doctors keep away','Like it in a muffin',
'Tastes yummy','Like it with
salmon','Glass of a juice','Ceser dressing on lettuce','Nothing in my
basket','Like it in a muffin','I like it it with salami','Comes from
Mexico']})
问题:
我必须在类别上使用 groupby 创建一个或多个指标
当类别列的单元格值未知时,我需要从 'Details' 中读取文本并预测最适合类别的标签。
例如
- 沙拉 -> 生菜、水果(第 5 行)-> 橙子水果(第 8 行)-> 蓝莓
Leaf(Row#9)-> 'Lettuce' 据了解,某些行可以
未分类。
需要帮助:
我是数据科学算法的新手,正在寻找一些指导来确定解决问题的正确模型。
对“详细信息”列使用朴素贝叶斯,然后对“类别”列进行简单过滤并删除具有已知类别值的行。
我有一个如下所示的数据集,在实际情况下,行数在 10000 到 1000000 之间。 专栏会更多,但核心问题围绕着这两个领域。
已知标签
我知道类别 -'Apple', 'Blueberry','Orange','Lettuce'
数据集
DataFrame
({'ROWID':1,2,3,4,5,6,7,8,9,10],
'Category':'Apple','Blueberry'.'Orange','Lettuce','Fruit','Salad','xyz','Fruit'
,'Leaf','Avocado'],
'Details':['Eat one a day ,doctors keep away','Like it in a muffin',
'Tastes yummy','Like it with
salmon','Glass of a juice','Ceser dressing on lettuce','Nothing in my
basket','Like it in a muffin','I like it it with salami','Comes from
Mexico']})
问题:
我必须在类别上使用 groupby 创建一个或多个指标
当类别列的单元格值未知时,我需要从 'Details' 中读取文本并预测最适合类别的标签。 例如
- 沙拉 -> 生菜、水果(第 5 行)-> 橙子水果(第 8 行)-> 蓝莓 Leaf(Row#9)-> 'Lettuce' 据了解,某些行可以 未分类。
需要帮助:
我是数据科学算法的新手,正在寻找一些指导来确定解决问题的正确模型。
对“详细信息”列使用朴素贝叶斯,然后对“类别”列进行简单过滤并删除具有已知类别值的行。