Google ClassroomGoogle Classroom
GeoGebraGeoGebra Classroom

技能训练

(1)简述贝叶斯公式原理。

(2)朴素贝叶斯大数据算法操作实践。 ① 作业目的。 a. 理解朴素贝叶斯算法原理; b. 掌握朴素贝叶斯算法框架; c. 掌握常见的高斯模型、多项式模型和伯努利模型; d. 能根据不同的数据类型,选择不同的概率模型实现朴素贝叶斯算法; e. 针对特定应用场景及数据,能应用朴素贝叶斯解决实际问题。 ② 作业准备。 Orange3 软件下载Toolbar Image并安装。 Iris 数据集下载采用 Orange3 平台自带数据库。 实现样本的分类,需要通过计算条件概率而得到,计算条件概率的方法称为贝叶斯准则,其计算方法为 朴素贝叶斯分类器,其核心方法是通过使用条件概率来实现分类,应用贝叶斯准则可以得到
数据集说明:Iris 数据集包含 150 个样本,对应数据集的每行数据。每行数据包含每个样本的四个特征和样本的类别信息,所以 Iris 数据集是一个 150 行 5 列的二维表。通俗地说,Iris 数据集是用来给花做分类的数据集,每个样本包含了 sepal_length(花萼长度)、sepal_width(花萼宽度)、petal_length(花瓣长度)、petal_width(花瓣宽度)四个特征(前 4 列),我们需要建立一个分类器,分类器可以通过样本的四个特征来判断样本属于山鸢尾、变色鸢尾还是维吉尼亚鸢尾(这三个名词都是花的品种)。样本库的局部截图如下图所示。 ③ 作业内容。 a. 实现高斯朴素贝叶斯算法; b. 熟悉 Orange 可视化的朴素贝叶斯算法; c. 针对 Iris 数据集,应用 Orange 可视化朴素贝叶斯算法进行类别预测; d. 针对 Iris 数据集,利用各种参数对朴素贝叶斯算法进行类别预测。 Ⅰ. 取前两个特征值,如图 2-3-5 所示
[size=100][justify]                                                图 2-3-5 GaussianNB 对鸢尾花数据的分类结果[/justify][/size]

图 2-3-5 GaussianNB 对鸢尾花数据的分类结果

Ⅱ. 取后两个特征值,如图 2-3-6 所示。
[size=100]                                          图 2-3-6 GaussianNB 对鸢尾花数据的分类结果[/size]
图 2-3-6 GaussianNB 对鸢尾花数据的分类结果
Ⅲ. 撰写数据测试报告。