三、找出决策树分析中影响最大的分裂属性
在完成了对“稳定来访”的量化后,我们来讨论一下分析方法。像本例这样考察多个属性的影响时,通常的处理方法是对每一个属性进行交叉列表统计。但是调查多个属性组合所产生的影响,也就是找出下面一些模式。
(1)从不主动对战其他用户,但协助他人超过 30 次的用户会稳定来访;
(2)第 3 天之后发送了 5 条以上的消息,并在第 7 天协助他人 2 次以上的用户群会稳定来访。
如果像这样将各种社交行为的次数和发生天数进行组合,那么需要进行大量的交叉列表统计,这个计算量是无法承受的。在这种情况下,一种便利的分析方法是使用决策树。
决策树分析在商业数据分析中是一种使用广泛且便利的分析方法,其中一种用法是找出影响最大的分裂属性。该分裂属性在交叉列表统计中需要将所有的组合都测试一遍才有可能找到。所以下面将使用决策树分析,如图 5-2-2 所示。
图 5-2-2 决策树分析与交叉列表比较