以下场景使用了什么样的分类器?
What kind of classifier is used in the following scenario?
如果我正在构建一个天气预报器来预测明天是否会下雪,那么直接回答 "NO" 就很容易了。
显然,如果您在一年中的每一天都评估这样一个分类器,那么它的准确率为 95%(考虑到我在很少下雪的地区构建和测试它)。
当然,即使它有 95% 的准确率,那也是一个愚蠢的分类器,因为与其他任何月份相比,预测冬季(1 月和 2 月)是否会下雪显然更重要.
所以,如果我有很多关于前一天收集的特征来预测第二天是否会下雪,考虑到会有一个特征说明 month/week已经过去一年了,我该如何权衡这个特殊的特征并设计分类器来解决这个实际问题?
Of course, that is such a stupid classifier even if it has an accuracy of 95% because it is obviously more important to predict if it will snow during the winter months (Jan & Feb) as opposed to any other months.
准确性可能不是适合您的情况的最佳衡量标准。考虑使用 precision, recall and F1 score.
how can I weigh this particular feature and design the classifier to solve this practical problem?
我认为 您 不应该以任何方式重视任何特定功能。您应该让您的算法执行此操作并使用 cross validation 来确定模型的最佳参数,以避免过度拟合。
如果您说一月和二月是最重要的月份,请考虑仅在这两个月应用您的模型。如果那不可能,请考虑根据它们的数量为 类(要下雨/不下雨)赋予不同的权重。 This question 讨论了这个问题 - 无论您选择何种语言,这个概念都应该是可以理解的。
如果我正在构建一个天气预报器来预测明天是否会下雪,那么直接回答 "NO" 就很容易了。
显然,如果您在一年中的每一天都评估这样一个分类器,那么它的准确率为 95%(考虑到我在很少下雪的地区构建和测试它)。
当然,即使它有 95% 的准确率,那也是一个愚蠢的分类器,因为与其他任何月份相比,预测冬季(1 月和 2 月)是否会下雪显然更重要.
所以,如果我有很多关于前一天收集的特征来预测第二天是否会下雪,考虑到会有一个特征说明 month/week已经过去一年了,我该如何权衡这个特殊的特征并设计分类器来解决这个实际问题?
Of course, that is such a stupid classifier even if it has an accuracy of 95% because it is obviously more important to predict if it will snow during the winter months (Jan & Feb) as opposed to any other months.
准确性可能不是适合您的情况的最佳衡量标准。考虑使用 precision, recall and F1 score.
how can I weigh this particular feature and design the classifier to solve this practical problem?
我认为 您 不应该以任何方式重视任何特定功能。您应该让您的算法执行此操作并使用 cross validation 来确定模型的最佳参数,以避免过度拟合。
如果您说一月和二月是最重要的月份,请考虑仅在这两个月应用您的模型。如果那不可能,请考虑根据它们的数量为 类(要下雨/不下雨)赋予不同的权重。 This question 讨论了这个问题 - 无论您选择何种语言,这个概念都应该是可以理解的。