确定多个权重的测验"difficulty"?

Determine the "difficulty" of quiz with multiple weights?

我正在尝试确定测验对象的 "difficultly"。

我的最终目标是能够为任何测验创建 "difficulty score" (DS)。这将使我能够准确地将一个测验与另一个测验进行比较,尽管由不同的 questions/answers.

组成

在创建我的测验对象时,我为每个问题分配了一个 "difficulty index" (DI),这是一个从 1 到 15 的数字。

15 = 最难
1 = 最简单

现在衡量这个 "difficulty score" 的一种简单的方法可能是将每个问题的 "difficulty index" 相加然后除以可能的最大值 "difficulty index"对于测验。 (例如 16/30 = 53.3% 难度)

但是,我还有多个 "weighting" 属性与每个问题相关联。这些权重又是一个 1-5 的比例。

5 = 影响最大
1 = 影响最小

我使用 (2) 而不是更常见的 (1) 的原因是我可以适应如下场景...

如果向学生提出一个非常困难的问题 (DI=15) 并且学生回答了 "incorrect",不要让他们的分数受到太大影响,但是如果他们回答了 "correct"它大大提高了他们的分数。我称这些为我的 "positive" (PW) 和 "negative" (NW) 权重。

测验示例 A:
问题 1:DI = 1 |密码 = 3 |西北 = 3
问题 2:DI = 1 |密码 = 3 |西北 = 3
问题 3:DI = 1 |密码 = 3 |西北 = 3
问题 4:DI = 15 |密码 = 5 |净重 = 1

测验示例 B:
问题 1:DI = 1 |密码 = 3 |西北 = 3
问题 2:DI = 1 |密码 = 3 |西北 = 3
问题 3:DI = 1 |密码 = 3 |西北 = 3
问题 4:DI = 15 |密码 = 1 |净重 = 5

从技术上讲,以上两个测验非常相似,但测验 B 应该更 "difficult" 因为如果你做错了,最难的问题对你的分数影响最大。

我现在的问题是,在考虑复杂的权重系统时,如何准确确定"difficulty score"?

非常感谢任何帮助!

挑战当然是确定每个问题的难度分数。

我推荐以下型号:

  • 难度 (H):定义一个较难的问题,以便正确回答它的机会较低。最难的问题是 (1) 正确回答它的机会等于随机选择(因为它本身就很难),并且 (2) 它有最多的可能答案。我们将这样的问题定义为 (H = 15)。在天平的另一端,我们将 (H = 0) 定义为一个问题,其中正确回答它的机会是 100%(因为它是微不足道的)(我知道 - 这样的问题永远不会出现)。现在 - 通过主观推断来定义每个问题的难度(记住,人们总是可以在给定的选项之间进行猜测)。例如,如果一个 (H = 15) 问题有 4 个答案,而另一个具有类似固有硬度的问题有 2 个答案 - 它将是 (H = 7.5)。另一个例子:如果你认为一个普通学生有 62.5% 的正确回答问题 - 这也是一个 (H = 7.5) 问题(这是因为 H = 15 有 25% 的正确答案,而 H = 0 有100%.平均为62.5%)

  • 效果(E):现在,我们将测量PW和NW的效果。对于有 50% 机会回答正确的问题 - 效果是 E = 0.5*PW - 0.5*NW。对于有 25% 机会回答正确的问题 - 效果是 E = 0.25*PW - 0.75*NW。对于琐碎的问题 NW 无关紧要所以效果是 E = PW.

  • 难度(DI):最后一步是整合硬度和效果——称之为难度。我建议 DI = H - c*E,其中 c 是某个正常数。您可能想要再次正常化。

    编辑: 或者,您可以尝试以下公式:DI = H * (1 - c*E),其中影响大小不是绝对的,而是相对于问题的难度。


澄清:

老师只需要估计每个问题的一个参数:普通学生正确回答这个问题的概率是多少。他的估计,e ,将在 [1/k, 1] 范围内,其中 k 是答案数。

硬度 H 是 e 的线性函数,因此 1/k 映射到 15,1 映射到 0。函数为:H = 15 * k / (k-1) * (1-e)

效果E取决于e、PW和NW。公式为E = e*PW - (1-e)*NW


基于 OP 评论的示例:

问题 1:

k = 4,e = 0.25(最难)。因此 H = 15

PW = 1,NW = 5,e = 0.25。因此 E = 0.25*1 - 0.75*5 = -3.5

c = 5.DI = 15 - 5*(-3.5) = 32.5

问题二:

k = 4, e = 0.95(非常简单)。因此 H = 1

PW = 1,NW = 5,e = 0.95。因此 E = 0.95*1 - 0.05*5 = 0.7

c = 5。DI = 1 - 5*(0.7) = -2.5

我想说问题的核心是 从数学上讲,您的示例测验 A 和 B 是相同的,除了测验 A 奖励学生 4 个无偿加分(或者,相当于,测验 B 任意扣掉他们 4 分)。如果同一位学生同时参加这两项考试,则分数分布将相同,只是偏移了 4 分。因此,虽然这两个测验可能 感觉 心理上不同(因为,让我们面对现实吧,获得加分感觉很好,而失去分数感觉很糟糕,即使你在技术上没有做任何应得的事情),发现objective 区分它们的方法似乎很棘手。

也就是说,"psychological difficulty" 的一个合理衡量标准可能只是随机选择的学生预计从测验中获得的平均分数(每个问题)。当然,这不是你可以可靠地提前计算出来的东西,尽管你可以在事后根据实际测验结果来估计它。

但是,如果您能以某种方式将您的(大概是任意的)难度等级与可能正确回答问题的学生比例联系起来,那么您就可以用它来估计预期的平均分数。因此,例如,我们可以简单地假设与问题难度的线性关系作为成功率,难度 1 对应于 100% 的预期成功率,难度 15 对应于 0% 的预期成功率。那么测验的每个问题的预期平均分数 S 可以计算为:

  • S = avg(PW × X − NW × (1 − X))

其中对测验中的所有问题取平均值,其中 PW 和 NW 分别是正确答案和错误答案的分数权重,下面的 DI 是问题的难度等级,X = (15 − DI) / 14 是估计的成功率。

当然,我们可能还想考虑到这样一个事实,即使学生不知道问题的答案,他们仍然可以猜测。基本上这意味着估计的成功率 X 不应在 0 到 1 的范围内,而应在 1/N 到 1 的范围内,其中 N 是问题的选项数。因此,考虑到这一点,我们可以将 X 的公式调整为:

  • X = (1 + (N - 1) × (15 - DI) / 14) / N

这个估计的平均分数 S 作为难度度量的一个问题是它在任何一个方向上都没有界限,并且没有提供明显的比例来指示什么算作 "easy" 测验或 "hard" 一个。这里的根本问题是您没有为问题权重指定任何限制,因此从技术上讲,没有什么可以阻止某人提出问题,例如,正负权重为一百万分。

就是说,如果您确实对权重施加了一些合理的限制(即使它们只是建议),那么您也应该能够在 S 上建立合理的阈值以考虑测验,例如简单,中等或困难。即使你不这样做,你至少仍然可以使用它来按难度对测验进行相对排序。

Ps。在 UI 中呈现预期分数的一种方法可能是将其乘以测验中的问题数量,并将结果显示为测验的 "par"。这样,学生就可以通过看他们的得分是高于还是低于标准来粗略地判断自己的表现与测验的难度。