四、考量实数、比率和主成分

目前,我们考量的数量是各种社交行为发生的次数以及这些行为发生在多少天后。也就是说,需探寻下面这些模式。 ● A 天后和其他用户对战了 B 次; ● C 天后和他人协作了 D 次; ● E 天后发送了 F 次消息。 然而,我们讨论的社交行为模式仅限于上面这样单纯的实数吗?例如,即使实际次数有差异,如果从开始使用的 1 周内各种行为发生的时间点相近,不也可以将其视为一类行为模式吗? 因此,根据每天的访问次数占 7 日内的访问总次数的比率,来讨论行为模式。根据该比率,可以得知用户 7 日内的下述情况。 ● 在前半段时间内有较多行为的用户的稳定到访率是否较高; ● 在后半段时间内有较多行为的用户的稳定到访率是否较高; ● 7 天内都有行为的用户的稳定到访率是否较高。 最后,还可以考虑使用主成分分析来计算得到基于主成分的模式。当各种社交行为相互影响,或者没有什么行为的用户较多的情况下,使用独立的主成分能得到更好的分离。下面就用上述 3 种分析属性来对社交行为和用户的稳定来访关系进行分析。
(一)将类作为自变量来使用 现有的数据如下: ● 行为的种类:战斗、协作、发送消息; ● 时间和次数:7 日内某个行为在什么时候发生了几次。 针对这些数据,从下述 3 个分析属性来着手进行分析: ● 实数; ● 比率; ● 主成分。 如果把这些变量都放到一起来分析,得出的结果很可能难以解释。因此,需要先弄清楚用哪个分析属性分析哪种社交行为最能说明稳定到访率,并在这一过程中确认哪种行为模式容易促使用户稳定来访。 因此,需要将社交行为和分析属性组合成一个新的自变量。 ● 新的自变量 1:社交行为=战斗、分析属性=实数; ● 新的自变量 2:社交行为=战斗、分析属性=比率; ● 新的自变量 3:社交行为=战斗、分析属性=主成分。 使用这个新的自变量进行决策树分析,就能够找出对稳定到访率影响最大的社交行为和分析属性的组合。组合成一个新变量的方法有很多,在本例中,将有类似行为的用户归到一起会比较好,因此可以使用聚类的方法。这里使用介绍过的 K-Means 方法(见图 5-2-3)。 图 5-2-3 聚类方法
在本例的数据生成过程中,使用了介绍的主成分分析和 K-means 等分析方法。在商业数据分析领域,为了使用某种数据分析方法,通常可以使用别的方法来进行数据加工。需要特别提到的是主成分分析,当自变量之间不是相互独立时,它能够将自变量变换成独立的成分。或者在自变量太多的情况下,为了降维也可以使用该方法。总之,主成分分析是一种经常使用的辅助性的分析方法。
(二)数据收集 下面来讨论进行决策树分析所需要的数据。首先,为了调查用户开始游戏后第 1 周和第 2周的到访情况,需要使用下述新用户(Install)数据和 DAU 数据,如表 5-2-2 和表 5-2-3 所示。 表 5-2-2 Install 数据 表 5-2-3 DAU 数据 然后需要处理 3 类社交行为,这里使用的是在某一天各个社交行为发生次数的数据(见表 5-2-4~表 5-2-6)。 表 5-2-4 战斗(行为日志) 表 5-2-5 发送消息(行为日志) 表 5-2-6 协作(行为日志)
(三)数据建模 计算登录密度,如图 5-2-4 所示。 图 5-2-4 计算登录密度
(1)将 DAU 和首次访问时间数据合并; (2)取得用户首次访问后第 7~13 天的数据; (3)计算出每个用户的登录密度; (4)每个分析对象用户与其登录密度合并,如表 5-2-7 所示。 表 5-2-7 用户及登录密度
然后,生成用户首次访问后 7 天内的各个社交行为的数据,如图 5-2-5 所示。 图 5-2-5 社交行为数据
(1)将各个社交行为的数据和用户首次访问时间的数据合并; (2)将时间限定在用户首次访问后的第 0~6 天; (3)将第 N 天的数据整理到同一列并按天排列,如表 5-2-8~表 5-2-10 所示。 表 5-2-8 实数数据 表 5-2-9 比率数据 表 5-2-10 主成分(PCA )数据 至此,我们已经生成了各个社交行为和分析属性的数据,接着就需要使用这份数据进行聚类分析。在进行聚类分析时,需要知道类的个数。在商业应用中,虽说类的个数取决于聚类目的,但一般情况下设 3~6 个类即可。 (1)通过 3~6 个类对各种行为分析属性进行聚类,如图 5-2-6 所示。 图5-2-6 对各种行为分析属性进行聚类
(2)将“行为名称、类的个数、分析属性”作为自变量,如图 5-2-7 所示。 图 5-2-7 将类作为自变量
最后,将带有登录密度的分析对象用户数据和各个社交行为的类数据合并,如图 5-2-8和表 5-2-11 所示。 表 5-2-11 各社会行为数据 图 5-2-8 合并数据
① 合并战斗的类; ② 合并协作的类; ③ 合并发送消息的类,如表 5-2-12。 表 5-2-12 合并类 至此,我们已经将用于决策树分析的数据准备好了,生成的决策树如图 5-2-9 所示。在生成的决策树中,最重要的一点是哪个属性被置于最上面的节点。这个属性就是通过交叉列表统计测试所有组合后得到的那个对 “登录密度”影响最大的说明要素。通过图5-2-9 可以看出,“类的个数为 4 时的协作主成分类”对登录密度的影响最大,其次是“类的个数为 6 时的协作比率类”,最右边的类在第 2 周的登录密度在 0.7~1,这是一个高登录密度的状态。 图 5-2-9 决策树
(四)研究每个协作主成分类的倾向 下面来研究类的个数为 4 时的协作主成分类的特征。首先,画出每个类的平均登录密度,如图 5-2-10 所示。 图 5-2-10 登录密度
图中,横轴是类的编号,纵轴是登录密度。可以看出,类 1 和其他类的登录密度差别很大。接着来观察各个类中协作行为的比率随着经过天数的变化情况,如图 5-2-11 所示。 图 5-2-11 各个类中协作行为的比率随着经过天数的变化情况
首先我们来观察属于类 1 的用户群。这些用户从一开始就有协作这种社交行为,但是在这之后协作行为并没有增加,2 周后这些用户的登录密度反而变得很低。反过来观察类 3 或者类 4 的用户群,这些用户也在初次访问游戏时就有协作这种行为,而且并没有就此结束,在后半周里以及之后仍然保持了这种行为,到 2 周后用户的登录密度就变得比较高了。另外,通过仔细观察,我们发现用户在初次访问游戏后 3~4 天,协作行为发生的次数增加了。由此可知,“协作”行为逐渐增多的用户更容易稳定访问游戏。 通过对社交行为的行为日志进行决策树分析,并与游戏策划人进行讨论,得到下述结论: (1)对开始游戏后第 2 周的“登录密度”影响最大的社交行为是“协作”行为; (2)在开始游戏后“协作”的社交行为慢慢增加的用户在这之后会稳定地访问游戏; (3)初次参与游戏的用户尚且体验不到游戏的乐趣所在,这种状态下用户并不能充分体验到和朋友之间发生协作行为的好处; (4)在用户开始使用后的第 3 天起,为了鼓励游戏用户相互协作的社交行为,调高打败敌方首领的难度; (5)第 3 天以后,为了促使游戏用户相互协作,把向他人寻求协作的按钮放置得更加目。