ML.NET、"Score Column" 缺失
ML.NET, "Score Column" is missing
我想在 ML.NET 制作我的第一个应用程序。我打赌威斯康星 Prognostic Breast Cancer Dataset。我自己生成 .csv 文件。该文件的一条记录如下所示:
B;11.62;18.18;76.38;408.8;0.1175;0.1483;0.102;0.05564;0.1957;0.07255;0.4101;1.74;3.027;27.85;0.01459;0.03206;0.04961;0.01841;0.01807;0.005217;13.36;25.4;88.14;528.1;0.178;0.2878;0.3186;0.1416;0.266;0.0927
它有 31 个不同的特征(列)。
我的CancerData.cs
看起来像这样:
class CancerData
{
[Column(ordinal: "0")]
public string Diagnosis;
[Column(ordinal: "1")]
public float RadiusMean;
[Column(ordinal: "2")]
public float TextureMean;
[Column(ordinal: "3")]
public float PerimeterMean;
//.........
[Column(ordinal: "28")]
public float ConcavPointsWorst;
[Column(ordinal: "29")]
public float SymmetryWorst;
[Column(ordinal: "30")]
public float FractalDimensionWorst;
[Column(ordinal: "31", name: "Label")]
public string Label;
}
和CancerPrediction.cs
class CancerPrediction
{
[ColumnName("PredictedLabel")]
public string Diagnosis;
}
我的Program.cs
:
class Program
{
static void Main(string[] args)
{
PredictionModel<CancerData, CancerPrediction> model = Train();
Evaluate(model);
}
public static PredictionModel<CancerData, CancerPrediction> Train()
{
var pipeline = new LearningPipeline();
pipeline.Add(new TextLoader("Cancer-train.csv").CreateFrom<CancerData>(useHeader: true, separator: ';'));
pipeline.Add(new Dictionarizer(("Diagnosis", "Label")));
pipeline.Add(new ColumnConcatenator(outputColumn: "Features",
"RadiusMean",
"TextureMean",
"PerimeterMean",
//... all of the features
"FractalDimensionWorst"));
pipeline.Add(new StochasticDualCoordinateAscentBinaryClassifier());
pipeline.Add(new PredictedLabelColumnOriginalValueConverter() { PredictedLabelColumn = "PredictedLabel" });
PredictionModel<CancerData, CancerPrediction> model = pipeline.Train<CancerData, CancerPrediction>();
model.WriteAsync(modelPath);
return model;
}
public static void Evaluate(PredictionModel<CancerData, CancerPrediction> model)
{
var testData = new TextLoader("Cancer-test.csv").CreateFrom<CancerData>(useHeader: true, separator: ';');
var evaluator = new ClassificationEvaluator();
ClassificationMetrics metrics = evaluator.Evaluate(model, testData);
var accuracy = Math.Round(metrics.AccuracyMicro, 2);
Console.WriteLine("The accuracy is: " + accuracy);
Console.ReadLine();
}
}
我得到的是:
ArgumentOutOfRangeException: Score column is missing
关于 ClassificationMetrics metrics = evaluator.Evaluate(model, testData);
方法。
当我在 CancerPrediction
中添加 Score
列时,我仍然遇到相同的异常。
我看到有人在 Whosebug 上有同样的问题,但看起来没有答案,我无法对此发表评论,因为我没有足够的声誉。这是一个错误吗?也许我的数据没有准备好?我在 ver. 0.5.0
中使用 ML.NET
感谢您的任何建议!
编辑 1:
当我添加到 CancerPrediction.cs
行时:
class CancerPrediction
{
[ColumnName("PredictedLabel")]
public string PredictedDiagnosis;
[ColumnName("Score")]
public string Score; // => new column!
}
我遇到异常:
System.InvalidOperationException: 'Can't bind the IDataView column 'Score' of type 'R4' to field or property 'Score' of type 'System.String'.'
行内:
PredictionModel<CancerData, CancerPrediction> model = pipeline.Train<CancerData, CancerPrediction>();
EDIT2
外观:
EDIT3
将Separator
改成','
加载原始数据集不是我准备的它还在大喊大叫,没有Score
,真烦人
我相信我知道问题出在哪里了。
您正在使用 StochasticDualCoordinateAscentBinaryClassifier
,这是一个二进制 class 转换器。
您正在尝试使用 ClassificationEvaluator
评估结果,这是一个多 class class 化评估器。
我建议您使用 BinaryClassificationEvaluator
来评估二进制 classifier 模型。
确切的问题如下:评估者期望列 'Score' 是一个向量列,其中包含每个 class 的分数。它找到的是 'Score' 列,它是一个标量(只是正值 class 的分数)。
因此它会抛出一些令人费解的消息
Score column is missing
我想在 ML.NET 制作我的第一个应用程序。我打赌威斯康星 Prognostic Breast Cancer Dataset。我自己生成 .csv 文件。该文件的一条记录如下所示:
B;11.62;18.18;76.38;408.8;0.1175;0.1483;0.102;0.05564;0.1957;0.07255;0.4101;1.74;3.027;27.85;0.01459;0.03206;0.04961;0.01841;0.01807;0.005217;13.36;25.4;88.14;528.1;0.178;0.2878;0.3186;0.1416;0.266;0.0927
它有 31 个不同的特征(列)。
我的CancerData.cs
看起来像这样:
class CancerData
{
[Column(ordinal: "0")]
public string Diagnosis;
[Column(ordinal: "1")]
public float RadiusMean;
[Column(ordinal: "2")]
public float TextureMean;
[Column(ordinal: "3")]
public float PerimeterMean;
//.........
[Column(ordinal: "28")]
public float ConcavPointsWorst;
[Column(ordinal: "29")]
public float SymmetryWorst;
[Column(ordinal: "30")]
public float FractalDimensionWorst;
[Column(ordinal: "31", name: "Label")]
public string Label;
}
和CancerPrediction.cs
class CancerPrediction
{
[ColumnName("PredictedLabel")]
public string Diagnosis;
}
我的Program.cs
:
class Program
{
static void Main(string[] args)
{
PredictionModel<CancerData, CancerPrediction> model = Train();
Evaluate(model);
}
public static PredictionModel<CancerData, CancerPrediction> Train()
{
var pipeline = new LearningPipeline();
pipeline.Add(new TextLoader("Cancer-train.csv").CreateFrom<CancerData>(useHeader: true, separator: ';'));
pipeline.Add(new Dictionarizer(("Diagnosis", "Label")));
pipeline.Add(new ColumnConcatenator(outputColumn: "Features",
"RadiusMean",
"TextureMean",
"PerimeterMean",
//... all of the features
"FractalDimensionWorst"));
pipeline.Add(new StochasticDualCoordinateAscentBinaryClassifier());
pipeline.Add(new PredictedLabelColumnOriginalValueConverter() { PredictedLabelColumn = "PredictedLabel" });
PredictionModel<CancerData, CancerPrediction> model = pipeline.Train<CancerData, CancerPrediction>();
model.WriteAsync(modelPath);
return model;
}
public static void Evaluate(PredictionModel<CancerData, CancerPrediction> model)
{
var testData = new TextLoader("Cancer-test.csv").CreateFrom<CancerData>(useHeader: true, separator: ';');
var evaluator = new ClassificationEvaluator();
ClassificationMetrics metrics = evaluator.Evaluate(model, testData);
var accuracy = Math.Round(metrics.AccuracyMicro, 2);
Console.WriteLine("The accuracy is: " + accuracy);
Console.ReadLine();
}
}
我得到的是:
ArgumentOutOfRangeException: Score column is missing
关于 ClassificationMetrics metrics = evaluator.Evaluate(model, testData);
方法。
当我在 CancerPrediction
中添加 Score
列时,我仍然遇到相同的异常。
我看到有人在 Whosebug 上有同样的问题,但看起来没有答案,我无法对此发表评论,因为我没有足够的声誉。这是一个错误吗?也许我的数据没有准备好?我在 ver. 0.5.0
ML.NET
感谢您的任何建议!
编辑 1:
当我添加到 CancerPrediction.cs
行时:
class CancerPrediction
{
[ColumnName("PredictedLabel")]
public string PredictedDiagnosis;
[ColumnName("Score")]
public string Score; // => new column!
}
我遇到异常:
System.InvalidOperationException: 'Can't bind the IDataView column 'Score' of type 'R4' to field or property 'Score' of type 'System.String'.'
行内:
PredictionModel<CancerData, CancerPrediction> model = pipeline.Train<CancerData, CancerPrediction>();
EDIT2
外观:
EDIT3
将Separator
改成','
加载原始数据集不是我准备的它还在大喊大叫,没有Score
,真烦人
我相信我知道问题出在哪里了。
您正在使用 StochasticDualCoordinateAscentBinaryClassifier
,这是一个二进制 class 转换器。
您正在尝试使用 ClassificationEvaluator
评估结果,这是一个多 class class 化评估器。
我建议您使用 BinaryClassificationEvaluator
来评估二进制 classifier 模型。
确切的问题如下:评估者期望列 'Score' 是一个向量列,其中包含每个 class 的分数。它找到的是 'Score' 列,它是一个标量(只是正值 class 的分数)。
因此它会抛出一些令人费解的消息
Score column is missing