了解 Matlab 示例拟合两个正态分布的混合
Understanding Matlab example fit a Mixture of Two Normals distribution
我按照这个例子来拟合两个正态分布的混合
你可以找到 here.
x = [trnd(20,1,50) trnd(4,1,100)+3];
hist(x,-2.25:.5:7.25);
pdf_normmixture = @(x,p,mu1,mu2,sigma1,sigma2) ...
p*normpdf(x,mu1,sigma1) + (1-p)*normpdf(x,mu2,sigma2);
pStart = .5;
muStart = quantile(x,[.25 .75])
sigmaStart = sqrt(var(x) - .25*diff(muStart).^2)
start = [pStart muStart sigmaStart sigmaStart];
lb = [0 -Inf -Inf 0 0];
ub = [1 Inf Inf Inf Inf];
options = statset('MaxIter',300, 'MaxFunEvals',600);
paramEsts = mle(x, 'pdf',pdf_normmixture, 'start',start, ...
'lower',lb, 'upper',ub, 'options',options)
bins = -2.5:.5:7.5;
h = bar(bins,histc(x,bins)/(length(x)*.5),'histc');
h.FaceColor = [.9 .9 .9];
xgrid = linspace(1.1*min(x),1.1*max(x),200);
pdfgrid = pdf_normmixture(xgrid,paramEsts(1),paramEsts(2),paramEsts(3),paramEsts(4),paramEsts(5));
hold on
plot(xgrid,pdfgrid,'-')
hold off
xlabel('x')
ylabel('Probability Density')
你能解释一下它计算的原因吗
h = bar(bins,histc(x,bins)/(length(x)*.5),'histc');
除以 (length(x)*.5)
我们的想法是缩放直方图,使其代表概率而不是计数。这是未缩放的直方图
纵轴是每个区间内的事件数。您已将 bin 定义为 -2.25:.5:7.25
,因此您的 bin 宽度 为 0.5
。因此,如果我们查看直方图的第一个条形图,它会告诉我们 x
中的元素数量(或实验中的事件数量)落在区间 -2.5
到 -2
(注意0.5
的宽度)是2
.
但是现在您想将其与概率分布函数进行比较,我们知道 PDF 的积分是 1
。这与说 PDF 曲线下的面积是 1
是一样的。因此,如果我们希望直方图的垂直比例与第二张图片中的 PDF 相匹配
我们需要对其进行缩放,使所有直方图条形的总面积总和为 1
。直方图第一条的面积是高度乘以宽度,根据我们上面的调查是 2*0.5
。现在直方图中所有 bin 的宽度都保持不变,因此我们可以通过将所有条形高度相加然后在最后乘以宽度来找到它的总面积。直方图中所有高度的总和就是事件总数,即x
或length(x)
中的元素总数。因此,第一个直方图的面积是 length(x)*0.5
,为了使这个面积等于 1
,我们需要将所有条形高度除以 length(x)*0.5
。
我按照这个例子来拟合两个正态分布的混合 你可以找到 here.
x = [trnd(20,1,50) trnd(4,1,100)+3];
hist(x,-2.25:.5:7.25);
pdf_normmixture = @(x,p,mu1,mu2,sigma1,sigma2) ...
p*normpdf(x,mu1,sigma1) + (1-p)*normpdf(x,mu2,sigma2);
pStart = .5;
muStart = quantile(x,[.25 .75])
sigmaStart = sqrt(var(x) - .25*diff(muStart).^2)
start = [pStart muStart sigmaStart sigmaStart];
lb = [0 -Inf -Inf 0 0];
ub = [1 Inf Inf Inf Inf];
options = statset('MaxIter',300, 'MaxFunEvals',600);
paramEsts = mle(x, 'pdf',pdf_normmixture, 'start',start, ...
'lower',lb, 'upper',ub, 'options',options)
bins = -2.5:.5:7.5;
h = bar(bins,histc(x,bins)/(length(x)*.5),'histc');
h.FaceColor = [.9 .9 .9];
xgrid = linspace(1.1*min(x),1.1*max(x),200);
pdfgrid = pdf_normmixture(xgrid,paramEsts(1),paramEsts(2),paramEsts(3),paramEsts(4),paramEsts(5));
hold on
plot(xgrid,pdfgrid,'-')
hold off
xlabel('x')
ylabel('Probability Density')
你能解释一下它计算的原因吗
h = bar(bins,histc(x,bins)/(length(x)*.5),'histc');
除以 (length(x)*.5)
我们的想法是缩放直方图,使其代表概率而不是计数。这是未缩放的直方图
纵轴是每个区间内的事件数。您已将 bin 定义为 -2.25:.5:7.25
,因此您的 bin 宽度 为 0.5
。因此,如果我们查看直方图的第一个条形图,它会告诉我们 x
中的元素数量(或实验中的事件数量)落在区间 -2.5
到 -2
(注意0.5
的宽度)是2
.
但是现在您想将其与概率分布函数进行比较,我们知道 PDF 的积分是 1
。这与说 PDF 曲线下的面积是 1
是一样的。因此,如果我们希望直方图的垂直比例与第二张图片中的 PDF 相匹配
我们需要对其进行缩放,使所有直方图条形的总面积总和为 1
。直方图第一条的面积是高度乘以宽度,根据我们上面的调查是 2*0.5
。现在直方图中所有 bin 的宽度都保持不变,因此我们可以通过将所有条形高度相加然后在最后乘以宽度来找到它的总面积。直方图中所有高度的总和就是事件总数,即x
或length(x)
中的元素总数。因此,第一个直方图的面积是 length(x)*0.5
,为了使这个面积等于 1
,我们需要将所有条形高度除以 length(x)*0.5
。