概率分布深度解析：PMF、PDF和CDF的技术指南

本文将深入探讨概率分布，详细阐述概率质量函数（PMF）、概率密度函数（PDF）和累积分布函数（CDF）这些核心概念，并通过实际示例进行说明。

在深入探讨PMF、PDF和CDF之前，有必要先简要介绍两种常用的概率分布：正态分布和均匀分布。

正态分布： 也称为高斯分布或钟形曲线，正态分布以其均值为中心对称。它广泛应用于描述自然界中的许多现象。诸如人口身高、标准化考试成绩、测量误差等多种实际数据集都呈现正态分布特征。

均匀分布： 在均匀分布中，给定范围内的每个结果具有相等的概率。这是最基本的概率分布形式，常用于描述每个结果等可能出现的情况，如公平骰子的投掷结果或0到1之间随机数的选取。

图1左侧展示了正态分布，呈现典型的钟形曲线，以平均值（此处为0）为中心。可以观察到，大多数数值集中在中心区域。右侧图表表示均匀分布，在0到1之间呈现均匀分布，表明每个值具有相等的出现概率。

在数据科学和统计学研究中，理解概率分布方式是核心任务。概率分布函数在这方面发挥着关键作用。本文将详细讨论概率密度函数（PDF）、概率质量函数（PMF）和累积分布函数（CDF）的概念。我们还将探讨如何从PMF或PDF推导CDF，并为每种情况提供具体示例。

概率质量函数（PMF）

概率质量函数（PMF）专用于描述离散随机变量。它定义了离散随机变量取特定值的概率。PMF为表示不同离散结果的概率提供了一种方法。

例如，在硬币翻转实验中，可能的结果只有正面和反面两种。公平硬币翻转的PMF可以表示为：

P(正面) = 0.5P(反面) = 0.5

另一个典型示例是投掷六面骰子。PMF表明每个结果（1,2,3,4,5,6）的概率均为0.167（约等于1/6）。

概率密度函数（PDF）

概率密度函数（PDF）用于描述连续随机变量。与为离散值分配概率的PMF不同，PDF描述了随机变量落在特定范围内的可能性。在连续分布中，任一具体点的概率为零，但我们可以通过对PDF在某个区间上进行积分来计算变量落在该区间内的概率。

正态分布（也称为高斯分布）是最常用的连续概率分布之一。其PDF可以表示为：

PDF给出了连续随机变量不同值的相对可能性。

下图直观地展示了PDF和PMF。左图显示了PDF的钟形曲线，曲线下的面积代表连续变量的概率。曲线的峰值位于均值处，其展开程度由标准差决定。右图展示了PMF（以六面骰子投掷为例），表示离散结果，每个可能的结果具有相等的概率。PMF为每个可能的结果分配了具体的概率值。

图3：概率密度函数（左）和概率质量函数（右）的图形表示。

累积分布函数（CDF）

累积分布函数（CDF）是一个函数，它定义了随机变量 X 小于或等于特定值 x 的概率。在数学上CDF 定义为：

F(x) = P(X ≤ x)

CDF 可以理解为概率的"累积和"。它从 0 开始，随着随机变量值的增加而增加，最终达到 1（表示总概率）。

为了更好地理解这些概念，我们将通过两个实例来说明，这些实例与前面解释 PDF 和 PMF 时使用的例子相对应：

示例1：离散随机变量的 CDF（骰子投掷）

考虑投掷一个标准六面骰子的情况。可能的结果是 {1,2,3,4,5,6}，每个结果的概率均为 0.167（约等于 1/6）。

我们可以通过累加每个结果的概率来构建 CDF：

当 x = 1 时：P(X ≤ 1) 是结果小于或等于 1 的概率。F(1) = P(X = 1) = 0.167

当 x = 2 时：P(X ≤ 2) 是结果小于或等于 2 的概率。F(2) = P(X ≤ 2) = P(X = 1) + P(X = 2) = 0.167 + 0.167 = 0.333

依此类推，当 x = 6 时，CDF 包括了所有可能的结果（因为骰子不可能产生大于 6 的结果），因此总概率为 1。F(6) = P(X ≤ 6) = P(X = 1) + P(X = 2) + ... + P(X = 6) = 1

由此可见CDF 是逐步增加的，累积了每个结果的概率。如果我们绘制这个函数，会得到一个阶梯状的图形，这是离散变量 CDF 的典型特征。

示例2：连续随机变量的 CDF（均匀分布）

现在让我们考虑一个连续变量的情况。假设 X 遵循 0 到 1 之间的均匀分布。均匀分布的 PDF 在区间 [0,1] 内为常数 1，在其他区间为 0。

我们可以通过对 PDF 进行积分来计算 CDF。

对于 x = 0.2，CDF 就是从 0 到 0.2 的 PDF 下的面积。我们对 PDF 在区间 [0, 0.2] 上积分，得到结果 0.2。

对于 x = 1，我们对 PDF 在区间 [0, 1] 上积分，CDF 的值为 1。

由于这是均匀分布，CDF 从 0 线性增加到 1。如果我们绘制这个函数，如下图所示会得到一条从点 (0, 0) 到点 (1, 1) 的直线，反映了 0 和 1 之间所有值具有相等概率的特性。

图4：左图显示了离散随机变量（骰子投掷）的 CDF，展示了骰子投掷结果概率的阶梯式累积。右图是连续随机变量（均匀分布）的 CDF，显示了从 0 到 1 的连续均匀分布概率的平滑线性增加。

结论

累积分布函数（CDF）是理解离散和连续设置中概率分布的强大工具。它使我们能够直观地看到任何给定点之前的累积概率，特别适用于计算区间概率。这些概念在数据分析、统计推断和机器学习算法中有广泛的应用。对于那些正在学习数据科学和统计学的读者，深入理解这些基本概念将为更高级的主题奠定坚实的基础。
https://avoid.overfit.cn/post/4571cfdbae7b43b2b6db94769f433d66

概率质量函数（PMF）

概率密度函数（PDF）

累积分布函数（CDF）

示例1：离散随机变量的 CDF（骰子投掷）

示例2：连续随机变量的 CDF（均匀分布）

结论

推荐阅读

目录