您何时以及为什么要使用概率密度函数?

When and why would you want to use a Probability Density Function?

我想成为一名数据科学家,作为一名数据科学家,我想了解您何时以及为何使用概率密度函数 (PDF)?

分享一个场景和一些指导来了解这个和其他类似的功能,如 CDF 和 PMF 将非常有帮助。知道哪本书从实践的角度谈论这些功能吗?

为什么?

概率论对于现代数据科学和机器学习应用非常重要,因为(在很多情况下)它允许人们 "open up a black box" 并阐明模型的内部工作原理,并且运气可以找到必要的成分,将一个糟糕的模型变成一个伟大的模型。没有它,数据科学家的工作将在他们能够做的事情上受到很大限制。

PDF 是概率论的基本组成部分,对于进行任何类型的概率推理以及期望、方差、先验和后验等都是绝对必要的。

Whosebug 上的一些示例,根据我自己的经验,实际问题归结为理解数据分布:

什么时候?

上面的问题提供了一些示例,如果您有兴趣,这里还有一些示例,列表并不完整:

我个人尽可能地尝试寻找概率解释(损失函数、参数、正则化、架构等的选择),因为这样我就可以从盲目猜测转变为做出合理的决定。

阅读

这是非常基于观点的,但至少有几本书真正值得一提:The Elements of Statistical Learning, An Introduction to Statistical Learning: with Applications in R or Pattern Recognition and Machine Learning(如果您的主要兴趣是机器学习)。这只是一个开始,还有数十本关于更具体主题的书籍,例如计算机视觉、自然语言处理和强化学习。