我们先来看看线性SVM。
SVM的全程是Support Vector Machine,即支撑向量机;顾名思义,SVM核心在于支撑向量,因为SVM认为其最优分类面是由支撑向量决定的。
什么是支撑向量呢?
如果你曾经接触过感知器算法就会知道,对于线性感知器,找出来的分类面似乎没有一种判定方法证明其分类面是优的,暂且也只能说这个分类面可以用于分类。但是SVM就不同了,它找出来的分类面尽可能的将不同类的数据分开。
形象一点的说,对于两类可线性分类的数据,总有一个这样的分类面,使得这两类数据中距离分类面最近的数据离分类面的距离相同且最大;对于线性可分数据这个条件似乎是很容易实现的,当然证明这个观点另说。
上面提到了两点:距离相同和距离最大;距离相同是保证分类面不会偏向于某一类,即它对于需要分类的数据一视同仁;距离最大则是保证这个分类面尽可能的优,尽量少地分错数据。
到此还没有提到支撑向量,但是前面的叙述,已经间接描述了“支撑向量”;即,距离分类面最近的数据(向量)。
怎么寻找支撑向量呢?
符号约定
w – 分类面
b – 分类面的偏移量,等同于感知器中的w0
y – 标签
x – 数据
数学描述
max(b, w) margin(b, w)
st.1 yn(wTxn + b) > 0 for all n
st.2 margin(b, w) = min(yn(wTxn + b)/||w||)
考虑到
wTxn + b = 0 可以等价于 AwTxn + Ab = 0 其中A是一个非零常数。
由于
yn(wTxn + b) > 0
则可以变化为min(Ayn(wTxn + b)) = 1,这样的数学处理是完全合理的。
将上述式子代入,我们可以将数学描述稍微简化一下:
max(b, w) 1/||w||
st.1 min(yn(wTxn + b)) = 1
再等价于(注意变化):
min(b, w) wwT/2
st.1 yn(wTxn + b) >= 1 for all n
化为这个式子的时候似乎已经有比较简单的方法求解了,梯度下降?
但是这样不能保证一定收敛,或者不能保证在有限次数内收敛。
所幸SVM提出之后给了一个简便的方法–对偶问题。如果你学过《运筹学》,则对于对偶理论或许不陌生。
对偶问题
直接上式子吧,我对于这个转化怎么来的暂时也不清楚:
optimal u <– QP(Q, p, A, c)
min(u) uTQu/2 + pTu
st. anTu >= cn for all n
其中
u = [b w]T
Q = [[0 0d]T [0dT Id]T]
p = 0d+1
anT = yn[1 xnT]
cn = 1
通过对偶问题的解即求出了原问题的解(对偶问题的最优解与原问题最优解相同)