五、算法用例

数据来自机器学习数字资源库,选择汽车销售数据集Toolbar Image,包含各类汽车特征的描述。共有数据记录1 728 条,无空数据。属性变量共 6 个,其类型目录如表 2-4-4 所示。 表 2-4-4 汽车数据的属性表 目标变量为人们的接受程度,其类型目录分别为 unacc(不接受)、acc(接受)、good(容易接受)、vgood(非常接受)。 采用 KNN 算法目的是找到各种车型的分类特征,以便提供给车企对某种新产品在设计、定价、外观等方面的市场接受程度。 全部数据的采样、算法及验证都在 Orange 平台Toolbar Image展开。其流程如图 2-4-11 所示。 图 2-4-11 汽车数据的 Orange 流程 数据按照 7∶3 进行数据采样,选取错误率最低的作为 KNN 参数,其准确率达到98.1%,取得满意的模型表现。
Image
以上配套资源下载Toolbar Image