四、案例推演
在某学校,对学生是否吃牛肉面进行了统计,并对统计当天的平均温差及天气特征进行记录,其目的是想了解学生的饮食偏好与温差和气象特征之间的关系。统计结果如表 2-3-1
表 2-3-1 学生是否吃牛肉面统计表
现在需要判断一个男生在低温、小雪天气状况下是否吃牛肉面。也即需要比较( | 吃男生,低温,小雪)与 ( | 不吃男生,低温,小雪) 的概率大小。
根据贝叶斯公式:
以上两式分母相同,只需要比较分子即可。
这里需要说明的是,贝叶斯分类需要一个重要的前提或假设,就是各个特征值之间相互
独立,这是由两个原因造成的:一是在现实应用场景中,由不同特征变量的不同属性所构成
的向量维度是巨大的,在进行数据训练时会产生大量的算力耗损。比如表 2-3-1 中,性别变
量的属性数量是 2(男、女),温区变量的属性数量是 3(低区、中区、高区),气象变量的属
性数量是 4(阴、晴、多云、小雪),其所构成的向量维度就已经是 2×3×4=24,而在实际
问题处理中则要高得多。二是在采样数据不足的情况下,由于数据的稀疏性,会得到统计数
据为 0 的情况,而这显然是不合适的,会造成贝叶斯分类失败。
鉴于特征值独立性假设,则 另计算,,以此类推,则 ,另计算,可以据此判断该生是吃牛肉面的。
以上举例采用的是离散数据,在实际应用场景中,更多的是连续数据,如表 2-3-2 所示。
表 2-3-2 身高体重信息统计
现已知某人身高 1.8 m、体重 60 kg,脚掌 20 cm,请问该人是男是女?该举例中的特征
变量(身高、体重、脚掌)均为连续变量,无法采用计数统计的方法来计算概率,而且由于
样本太少,所以也无法分成区间计算。这时可以将特征变量归类为某种分布,如此例中可以
假设男性和女性的身高、体重、脚掌都是正态分布,通过极大似然估计计算出分布参数的均
值和方差,也就是得到正态分布的密度函数。有了密度函数,就可以把值代入,从而求得某
一点的密度函数的值。
正态分布的极大似然估计的求解函数为:
则可求得各特征变量的极大似然估计参数,如表 2-3-3 所示。
表 2-3-3 各特征变量的极大似然估计参数
按照贝叶斯分类器的计算步骤,目标计算值是比较如下两个概率值的大小:
以上两式分母相同,不再计算,而分子中的各项都可根据已有的参数值计算得出。
,依此类推,可以计算出:
可以看到,女性的概率比男性要高出将近一千万倍,所以判断该人为女性。
