Google Classroom
GeoGebraGeoGebra Klaslokaal

三、 常见的连续型随机变量的分布

(一)正态分布 正态分布,又称为高斯分布,作为连续随机变量的概率分布,是概率统计中最常用的概率分布。一般来讲,为了便于区分,在描述连续随机变量的分布时,我们使用概率密度函数,而不是在离散随机变量中使用的 。 如果随机变量的概率密度函数为:
则称服从数学期望为,方差为2的正态分布,记为。简单来说,是整个概率分布的平均值,从图形上决定了其位置,是整个概率分布的偏差水平,从图形上决定了其幅度。下图是时的正态分布图,称为标准正态分布。见图1-2-8

 图1-2-8 正态分布图

正态分布在现实生活的各个场景中有着极为广阔的应用,尤其是在大数据分析领域,由于正态分布具有形式简单、性质优良的特性,特别适合机器学习中大规模批量化处理的模型。 正态分布是典型的统计学基础定理——中心极限定理的应用体现。中心极限定理是与大数定理并列的重要概率理论。其核心思想是:大量的独立随机变量相加,不论各个随机变量的分布是怎样的,它们的加和必定会趋向于正态分布。而大数定理的含义是,随机变量多个观察值的均值会随着观察值的增加越发趋近于期望值,即均值服从期望为的正态分布。
二、指数分布 在连续型随机分布中,存在一个与指数有关的分布,指数分布。 如果随机变量的概率密度函数为:
则称服从参数为的指数分布,记为,其中为常数。下图为时的指数分布概率密度图。见图1-2-9。

 图1-2-9 指数分布图

指数分布的一个重要性质是“无记忆性”。用数学语言来描述,即服从指数分布的随机变量满足: ,其中,是两个常数。 举例来说,设随机变量是灯泡的使用时间,上面的公式是指,灯泡在已经使用小时的条件下,使用时间长于小时的概率与灯泡使用时间长于小时的概率是相等的,这意味着,灯泡已经忘记了自己已使用了小时,这就是“无记忆性”,正因为这一特性,指数分布常常应用于排队论中。 排队论,也称随机服务系统理论。在这一理论中,我们常常假定顾客到来是“不可预测”的随机事件,而这一特性符合泊松分布的应用场景,所以顾客单位时间内到达的人数服从泊松分布,与之相对应,顾客的到达时间间隔服从指数分布。设单位时间内到达的顾客数量为,则顾客的到达时间间隔服从如下的概率密度函数:
,式中,的均值为1/,方差为1/。 以上二种连续分布的动态演示图已用数学软件Geogebra画出,学习者可以调整各分布的参数查看图形变化过程,其图形可下载Toolbar Image研究。

图2-10 二种分布在Geogebra中的呈现

以上内容均在百度网盘可供下载,下载Toolbar Image网址为:
【小思考:人工智能可以完成高复杂度的计算,但是离“算计”还有多远?】 这个问题,可以留给读者思考,或许可以拓展新的人工智能领域。