技能训练
(1)写出 K 近邻(K Nearest Neighbor)算法的流程。
(2)简述KNN算法的特点。
(3) KNN(K Nearest Neighbors)操作实践。
① 作业目的。
a. 理解距离 K 个训练样本最近的距离是如何计算的。
b. 掌握 K 的正确取值方法。
② 作业准备。
Orange3 软件
下载并安装。
通过计算对象间距来作为各个对象之间的非相似性指标,距离一般使用欧式距离或曼哈顿距离。其计算方法为
欧式距离:
曼哈顿距离:
③ 作业内容。
a. 计算已知类别数据集中的点与当前点之间的距离。
b. 按照距离递增次序排列。
c. 选取与当前点距离最小的 K个点。
d. 确定前 K 个点所在类别出现的频率。
Ⅰ. KNN 的交叉验证。
按 The Validation Set Approach 方法取 K 值,并将各 K 值错误率写入报告。
按 Cross-Validation 方法取 K 值,并将各 K 值错误率写入报告。
Ⅱ. KNN 模型评估指标。
按图 2-4-7 和图 2-4-8 生成模型评估数据。
Ⅲ. 撰写数据测试报告。

