生成适合其生成数据的对数正态样本
Generating lognormal samples that fitts the data it was generated from
我正在尝试根据其他一些示例创建一个新示例,但我 doing/understanding 出了点问题。我有 34 个样本,我假设它们是相对对数分布的。基于这个样本,我想生成 2000 个新样本。这是我 运行:
的代码
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
samples = [480, 900, 1140, 1260, 1260, 1440, 1800, 1860, 1980, 2220, 2640, 2700,
2880, 3420, 3480, 3600, 3840, 4020, 4200, 4320, 4380, 4920, 5160,
5280, 6900, 7680, 9000, 10320, 10500, 10800, 15000, 21600, 25200,
39000]
plt.plot(samples, 1 - np.linspace(0, 1, len(samples)))
std, loc, scale = stats.lognorm.fit(samples)
new_samples = stats.lognorm(std, loc=loc, scale=scale).rvs(size=2000)
a = plt.hist(new_samples, bins=range(100, 40000, 200),
weights=np.ones(len(new_samples)) / len(new_samples))
plt.show()
这是图表,正如您所见,1000 以上的样本确实很少,尽管样本中包含相当多的 1000 以上的样本。
如何才能最好地生成更能代表预期值的样本?
stats.lognorm.fit
似乎出了点问题。
docs 通过拟合样本日志的 stats.norm
然后使用 exp(mu)
作为比例提到了替代方案。这似乎工作得更好。
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
samples = [480, 900, 1140, 1260, 1260, 1440, 1800, 1860, 1980, 2220, 2640, 2700,
2880, 3420, 3480, 3600, 3840, 4020, 4200, 4320, 4380, 4920, 5160,
5280, 6900, 7680, 9000, 10320, 10500, 10800, 15000, 21600, 25200,
39000]
samples = np.array(samples)
std, loc, scale = stats.lognorm.fit(samples) # 2.865850745357322, 479.99969879223596, 1.1400622824414484
weird_samples = stats.lognorm(std, loc=loc, scale=scale).rvs(size=2000)
mu, std = stats.norm.fit(np.log(samples)) # 8.304837454505837, 0.9720253999925554
scale = np.exp(mu) # 4043.3848507251523
loc = 0
new_samples = stats.lognorm(std, loc=loc, scale=scale).rvs(size=2000)
plt.plot(samples, 1 - np.linspace(0, 1, len(samples)), label='given samples')
plt.plot(np.sort(weird_samples), 1 - np.linspace(0, 1, len(weird_samples)), label='using stats.lognorm.fit(samples)')
plt.plot(np.sort(new_samples), 1 - np.linspace(0, 1, len(new_samples)), label='using stats.norm.fit(log(samples))')
plt.legend()
plt.show()
Seaborn 的 kdeplot 显示如下:
import seaborn as sns
bw = 1500
sns.kdeplot(samples, bw=bw, label='given samples')
sns.kdeplot(weird_samples, bw=bw, label='using stats.lognorm.fit(samples)')
sns.kdeplot(new_samples, bw=bw, label='using stats.norm.fit(log(samples))')
plt.xlim(-5000, 45000)
plt.show()
PS:问题似乎是使用有限样本拟合 3 个参数效果不佳。您可以强制 lognorm.fit
使用 loc=0
,这会找到更合理的参数。 loc
参数只是将样本移动了该数量;通常 loc=0
是更好的选择。
std, loc, scale = stats.lognorm.fit(samples, floc=0) # 0.9720253999925554, 0.0, 4043.3848507251523
除了用 floc
强制 loc
,您还可以提供一个初始猜测。这看起来更好:
std, loc, scale = stats.lognorm.fit(samples, loc=0) # 1.0527481074345748, 203.08004314932137, 3712.4903893865644
我正在尝试根据其他一些示例创建一个新示例,但我 doing/understanding 出了点问题。我有 34 个样本,我假设它们是相对对数分布的。基于这个样本,我想生成 2000 个新样本。这是我 运行:
的代码import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
samples = [480, 900, 1140, 1260, 1260, 1440, 1800, 1860, 1980, 2220, 2640, 2700,
2880, 3420, 3480, 3600, 3840, 4020, 4200, 4320, 4380, 4920, 5160,
5280, 6900, 7680, 9000, 10320, 10500, 10800, 15000, 21600, 25200,
39000]
plt.plot(samples, 1 - np.linspace(0, 1, len(samples)))
std, loc, scale = stats.lognorm.fit(samples)
new_samples = stats.lognorm(std, loc=loc, scale=scale).rvs(size=2000)
a = plt.hist(new_samples, bins=range(100, 40000, 200),
weights=np.ones(len(new_samples)) / len(new_samples))
plt.show()
这是图表,正如您所见,1000 以上的样本确实很少,尽管样本中包含相当多的 1000 以上的样本。
如何才能最好地生成更能代表预期值的样本?
stats.lognorm.fit
似乎出了点问题。
docs 通过拟合样本日志的 stats.norm
然后使用 exp(mu)
作为比例提到了替代方案。这似乎工作得更好。
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
samples = [480, 900, 1140, 1260, 1260, 1440, 1800, 1860, 1980, 2220, 2640, 2700,
2880, 3420, 3480, 3600, 3840, 4020, 4200, 4320, 4380, 4920, 5160,
5280, 6900, 7680, 9000, 10320, 10500, 10800, 15000, 21600, 25200,
39000]
samples = np.array(samples)
std, loc, scale = stats.lognorm.fit(samples) # 2.865850745357322, 479.99969879223596, 1.1400622824414484
weird_samples = stats.lognorm(std, loc=loc, scale=scale).rvs(size=2000)
mu, std = stats.norm.fit(np.log(samples)) # 8.304837454505837, 0.9720253999925554
scale = np.exp(mu) # 4043.3848507251523
loc = 0
new_samples = stats.lognorm(std, loc=loc, scale=scale).rvs(size=2000)
plt.plot(samples, 1 - np.linspace(0, 1, len(samples)), label='given samples')
plt.plot(np.sort(weird_samples), 1 - np.linspace(0, 1, len(weird_samples)), label='using stats.lognorm.fit(samples)')
plt.plot(np.sort(new_samples), 1 - np.linspace(0, 1, len(new_samples)), label='using stats.norm.fit(log(samples))')
plt.legend()
plt.show()
Seaborn 的 kdeplot 显示如下:
import seaborn as sns
bw = 1500
sns.kdeplot(samples, bw=bw, label='given samples')
sns.kdeplot(weird_samples, bw=bw, label='using stats.lognorm.fit(samples)')
sns.kdeplot(new_samples, bw=bw, label='using stats.norm.fit(log(samples))')
plt.xlim(-5000, 45000)
plt.show()
PS:问题似乎是使用有限样本拟合 3 个参数效果不佳。您可以强制 lognorm.fit
使用 loc=0
,这会找到更合理的参数。 loc
参数只是将样本移动了该数量;通常 loc=0
是更好的选择。
std, loc, scale = stats.lognorm.fit(samples, floc=0) # 0.9720253999925554, 0.0, 4043.3848507251523
除了用 floc
强制 loc
,您还可以提供一个初始猜测。这看起来更好:
std, loc, scale = stats.lognorm.fit(samples, loc=0) # 1.0527481074345748, 203.08004314932137, 3712.4903893865644