CS 实验中不确定性的量化

Question

大家好，

我正在写我的计算机科学硕士论文。更具体地说，我正在研究在统计依赖解析器中用作特征时调整分布语义模型的超参数的效果。我正在使用 word2vec，一种基于非确定性神经网络的词嵌入软件。为了能够验证我的结果，我必须量化我的模型中的非确定性程度。

不过，我确实认为可以在更抽象的层面上提出这个问题——我可以使用什么测试来量化统计模型中的非确定性程度？举例来说，当我执行相同的实验五次时得到以下结果：

89.5, 89.7, 89.4, 89.5, 89.9

如何确定我的系统 "how non-deterministic" 并将其用作接受或丢弃未来实验结果的基础？

Answer 1

如果您所说的检验是指显着性检验或假设检验，则这些检验毫无用处，您可以忽略它们。

量化语言解析或其他任何事物中的不确定性的适当方法是将不确定性表示为概率。在语言解析的上下文中，这意味着构建一个可能的概率分布来解析给定的句子。

如果您需要做出决定，则需要提供额外的数据来表达对结果的偏好（即效用函数）。概率和效用通过所谓的预期效用假设结合起来：最佳行动是使预期效用最大化的行动。

罗伯特·克莱门 (Robert Clemen) 的 "Making Hard Decisions" 对这些概念进行了有用的介绍，其中使用了来自许多领域的示例。更具体地针对您的问题，网络搜索概率语言解析会出现很多结果。

您可能会对 stats.stackexchange.com 上的这个问题更感兴趣。那里可能已经有相关问题的答案。

Quantification of non-determinism in CS experiments