本文共 610 字,大约阅读时间需要 2 分钟。
LR:logistics regression
SVM:support vector machine不同:
LR,交叉熵损失函数,也有叫log损失
J(theta) = - 1/m [ sum y* log{ h(x) } + (1 - y) * log{ 1 - h(x) } ]SVM,hinge loss
[Z]+ = { z, z > 0 ; 0, z <= 0 } L(w, b ,a) = 1/2*||W||^2 - sum{ a*(y*(wt*x + b) - 1 ) }不同的loss function代表了不同的假设前提
代表不同分类原理SVM最后分界线只受支持向量上样本影响,逻辑回归分界线受所有样本影响(所以,逻辑回归在做不平衡数据时,要先对数据做平衡)
LR基于分类概率,SVM基于分类距离
(SVM依赖数据表达的距离,所以要对数据做标准化(normalization);LR要做平衡)归一化优点在于,加快收敛速度(模型太扁不利于梯度下降),提升模型精度
(归一化是否对模型影响,要看模型是否有伸缩不变性) 伸缩不变性:各个维度进行不均匀伸缩后,最优解与原来不等价,则不具有伸缩不变形,例如SVM。 对于SVM,若不归一化,不同的维度带有不同的量纲,同样加10所代表的意义不一样,且会影响梯度下降。SVM自带正则化,LR需要正则化
LR对异常值敏感,SVM对异常值不敏感
转载地址:http://quwji.baihongyu.com/