'theta' 在语言模型中是什么意思?
What does 'theta' mean in a language model?
我知道如果X表示一个文本,p(X)表示文本的语言模型。大多数情况下,我们使用最大似然估计来估计语言模型。
但在很多情况下,我发现一个参数 $\theta$ 用来表示一个语言模型。我不明白这个 $\theta$ 的意思。
例如,对于集合中的文档 d,$\theta$ 在“p(d|$\theta$)”中的作用是什么?
$\theta$ 代表最大似然估计还是语言模型?
有人可以深入解释语言模型和 $\theta$ 之间的区别吗?
提前致谢!
\theta
是一种 conventional/standard 机器学习符号,表示(严格来说)一组参数(值),通常更常称为参数向量。
符号 P(Y|X;\theta)
的读作是借助经过训练的模型从 x 值(例如 MNIST 数字的输入图像)预测 y 值(例如 MNIST 数字标签)在带注释的 (X,Y) 对上训练。此模型 由 \theta
参数化。显然,如果训练算法发生变化,参数向量也会发生变化 \theta
.
这些参数向量的结构通常是从它们关联的模型中解释的,例如对于多层神经网络,它们表示最初随机分配的实值向量,然后在每次迭代时通过梯度下降更新。
对于基于单词生成的语言模型,它们指的是单词 v
跟在单词 u
之后的概率,这意味着每个元素都是哈希中的一个条目-table形式 (u, v) --> count(u.v)/count(u)
。
这些概率是从 training 文档集 C
中学习的,因此它们本质上成为训练集的函数.对于不同的集合,这些概率值会有所不同。
因此,通常的约定是写P(w_n|P_w_{n-1};\theta)
,这基本上表明这些词的连续概率是参数化 \theta
。
类似的论点适用于信息检索中的文档级语言模型,其中权重本质上表示从文档中抽取术语的概率。
我知道如果X表示一个文本,p(X)表示文本的语言模型。大多数情况下,我们使用最大似然估计来估计语言模型。 但在很多情况下,我发现一个参数 $\theta$ 用来表示一个语言模型。我不明白这个 $\theta$ 的意思。 例如,对于集合中的文档 d,$\theta$ 在“p(d|$\theta$)”中的作用是什么?
$\theta$ 代表最大似然估计还是语言模型?
有人可以深入解释语言模型和 $\theta$ 之间的区别吗?
提前致谢!
\theta
是一种 conventional/standard 机器学习符号,表示(严格来说)一组参数(值),通常更常称为参数向量。
符号 P(Y|X;\theta)
的读作是借助经过训练的模型从 x 值(例如 MNIST 数字的输入图像)预测 y 值(例如 MNIST 数字标签)在带注释的 (X,Y) 对上训练。此模型 由 \theta
参数化。显然,如果训练算法发生变化,参数向量也会发生变化 \theta
.
这些参数向量的结构通常是从它们关联的模型中解释的,例如对于多层神经网络,它们表示最初随机分配的实值向量,然后在每次迭代时通过梯度下降更新。
对于基于单词生成的语言模型,它们指的是单词 v
跟在单词 u
之后的概率,这意味着每个元素都是哈希中的一个条目-table形式 (u, v) --> count(u.v)/count(u)
。
这些概率是从 training 文档集 C
中学习的,因此它们本质上成为训练集的函数.对于不同的集合,这些概率值会有所不同。
因此,通常的约定是写P(w_n|P_w_{n-1};\theta)
,这基本上表明这些词的连续概率是参数化 \theta
。
类似的论点适用于信息检索中的文档级语言模型,其中权重本质上表示从文档中抽取术语的概率。