谷歌课堂
GeoGebraGeoGebra 教室

一、Logistic 分布

(一)分布形态及相关概念 Logistic 分布是一种连续型的概率分布,其分布函数(或质量函数)和密度函数分别为 分布函数: 密度函数: 其中, 为位置参数; 为形状参数。图 2-6-2为 Logistic 分布函数和密度函数图像,同时配以数字化图像,以便更好理解函数。
 
图 2-6-2 Logistic 分布函数和密度函数
以二分类为例,所给数据集假设存在这样的一条直线可以将数据完成线性可分,如图2-6-3 所示。

 图 2-6-3 二分类逻辑回归示意

设分界线方程为,这里 应是指诸多特征变量中对目标变量敏感性强、预判方向指向性良好的两个特征变量。 决策边界可以表示为 ,假设某个样本点 ,那么可以判断它的类别为 1,这个过程其实是一个感知机。 【思考一】如何找到分类概率 P Y( 1)  与输入变量 x 之间的函数关系,然后通过比较概率值来判定分类。 考虑二分类问题,给定数据集: 说明:这里 指的是,即两个特征向量在二维平面上的点位;指概率值,即某一个点位所对应的概率值,取值为 0 或 1。 考虑到取值是连续的,因此它不能拟合离散变量。可以考虑用它来拟合条件概率 ,因为概率的取值也是连续的。 但是对于 (若等于零向量,则没有什么求解的价值), 取值为,不符合概率取值为 0 到 1,因此考虑采用广义线性模型。 最理想的是单位阶越函数:
但是这个阶跃函数不可微,对数几率函数是一个常用的替代函数: 经变换后可得 视为 为正例的概率,则 为其反例的概率。两者的比值称为几率(odds),指该事件发生与不发生的概率比值,若事件发生的概率为,则对数几率: 视为类后验概率估计,重写公式有: 也就是说,输出的对数几率是由输入 的线性函数表示的模型,这就是逻辑回归模型。当的值越接近正无穷,概率值也就越接近 1。因此逻辑回归的思路是,先拟合决策边界(不局限于线性,还可以是多项式),再建立这个边界与分类的概率联系,从而得到二分类情况下的概率。
【思考二】使用对数几率的意义是什么?通过上述推导可以看到 Logistic 回归实际上是使用线性回归模型的预测值逼近分类任务真实标记的对数几率,其优点有: ① 直接对分类的概率建模,无须实现假设数据分布,从而避免了假设分布不准确带来的问题; ② 不仅可预测出类别,还能得到该预测的概率,这对一些利用概率辅助决策的任务 很有用; ③ 对数几率函数是任意阶可导的凸函数,有许多数值优化算法都可以求出最优解。 【延伸思考一】为什么要引入函数? 因为有优良的 0、1 分界特性,如图 2-6-4 所示。

 图 2-6-4 以自然对数为底数的指数函数示意

函数中,当 时,则; 当 时,则 。在此特征下,以决策边界为分界的两类数据可以妥帖地与分类概率建立联系,如数据点与决策边界越近,其正确归并入某一类别的概率值越接近于 0.5,即模糊性越强,类似于我们平常所说的“一半一半”;数据点与决策边界越远,其分类概率值越接近于 0 或 1,表明其类别属性明显。其数据点与分类概率点的对应关系见动态图。
为更清晰展示逻辑回归函数与样本点的分类关系,设有两个特征变量的样本点,其逻辑回归函数为,这里 代表样本的两个特征变量,之所以这样设置,是考虑到这样的逻辑回归函数可以在三维空间中展现出来,并能将样本的分类情况加以清晰界定,如图 2-6-5 所示,呈现在不同参数( )下,样本点的分类情况。


 图2-6-5 三维空间中的Logistics函数的分类情况 其动态演示图请参见如下数字化动态图,图中蓝色点代表正量点,红色点代表负量点。
【延伸思考二】决策分界线与各数据点之间的距离关系。 以上问题的数学描述为(以二维平面点为例):设决策分界线函数为 ,在决策分界线之外有一点 ,设经过 p 点且与决策分界线平行的线函数为 求的值。 解:已知 (1) (2) (2)式减(1)式得 由此可得,在二维平面点中, 的值应等于数据点平行线的截距与决策分界线的截距之差。
【延伸思考三】特征向量的公式表达。 在逻辑回归中,为方便初学者快速理解,一般都将决策边界表示为二元函数,如,在平面坐标中它表现为一条直线(见图 2-6-6)。需要说明的是,在此公式中, 均为特征变量,其对目标变量的依附是靠判定的。同理,如果一个样本给出的特征变量有三个,则决策边界函数为三元函数,一般可表示为,在立体坐标中它表现为一个平面(见图 2-6-7)。



图 2-6-6 二特征变量的坐标表达

图2-6-7 三特征变量的坐标表达

依此类推,在逻辑回归算法中, 个特征变量的决策边界函数为元函数,一般表示为。 举个例子,某学校对食堂网上订餐的数据进行了整理,其变量字段的列表如表 2-6-1所示。 表 2-6-1 食堂订餐数据的变量字段 此数据集的应用目的之一是将订餐信息与天气信息合集,并由此判断在天气预报的指示下,未来一段时期内食堂米/面或荤/素的订餐量。据此可以定义门店、午晚餐、温差、均温、气象、价格等字段为特征变量,米/面或荤/素为目标变量。通过 Orange 3 软件,选取决策树和逻辑回归为对照算法模型。 如果仅选取气象和价格两个特征向量,即由 为决策边界,其中 代表气象特征变量, 代表价格这一特征变量,则模型的评估参数如图 2-6-8 所示。

图 2-6-8 两特征向量的逻辑回归性状指标

从图 2-6-8 中可以看出,两特征向量的预测准确度不高,Sigmoid 曲线的形态也不好,对目标变量分类预测的实际价值不大。 此时再加入一个特征变量门店,即由为决策边界,代表门店这一特征变量,则模型的评估参数如图 2-6-9 所示。

图 2-6-9 三特征向量的逻辑回归性状指标

从图 2-6-9 中可以看出,预测的准确性明显提高,Sigmoid 曲线形态也趋于良好,是有实际应用价值的分类预测方案。
(二)应用场景及优劣 优点:逻辑回归训练速度很快,可用于工业级别的数据,也可以在使用其他准确率更高的算法时先用逻辑回归计算出基线,再查看当前的数据在算法上的表现,以判断是否还要继续进行数据清洗和特征工程。逻辑回归可用于概率预测,也可用于分类;对数据中小噪声的鲁棒性也很好。 缺点:对数据特征间的独立性要求较高;不适用于 features 和 label 为非线性关系的数据中;当特征空间很大、特征有缺失时,逻辑回归的性能不是很好。 【知识点】什么是 features 和 label? 一般来讲,label 是分类,是想要预测的内容标签,而 feature 是特征。如果训练出 feature 和label 的关系,则可以通过 feature 得出 label。